論文の概要: Failing to Explore: Language Models on Interactive Tasks
- arxiv url: http://arxiv.org/abs/2601.22345v1
- Date: Thu, 29 Jan 2026 21:42:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.082633
- Title: Failing to Explore: Language Models on Interactive Tasks
- Title(参考訳): 探索に失敗する:対話型タスクにおける言語モデル
- Authors: Mahdi JafariRaviz, Keivan Rezaei, Arshia Soltani Moakhar, Zahra Sodagar, Yize Cheng, Soheil Feizi,
- Abstract要約: 限られた相互作用予算の下で対話的な環境を探索する能力に基づいて言語モデルを評価する。
最先端モデル全体では、系統的な下探索と準最適解が見つかる。
固定予算を並列実行に分割し,インタラクション履歴を定期的に要約する。
- 参考スコア(独自算出の注目度): 46.718138061486464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluate language models on their ability to explore interactive environments under a limited interaction budget. We introduce three parametric tasks with controllable exploration difficulty, spanning continuous and discrete environments. Across state-of-the-art models, we find systematic under-exploration and suboptimal solutions, with performance often significantly worse than simple explore--exploit heuristic baselines and scaling weakly as the budget increases. Finally, we study two lightweight interventions: splitting a fixed budget into parallel executions, which surprisingly improves performance despite a no-gain theoretical result for our tasks, and periodically summarizing the interaction history, which preserves key discoveries and further improves exploration.
- Abstract(参考訳): 限られた相互作用予算の下で対話的な環境を探索する能力に基づいて言語モデルを評価する。
連続した環境と離散的な環境にまたがる、制御可能な探索困難を伴う3つのパラメトリックタスクを導入する。
最先端モデル全体では、体系的な下探索と準最適解が見つかり、予算が増加するにつれて、単純な探索的ヒューリスティックベースラインを探索するよりもパフォーマンスが著しく低下し、スケールが弱くなることがしばしばある。
最後に、固定予算を並列実行に分割し、タスクに対する理論的な結果が得られないにもかかわらず、驚くほど性能を向上し、重要な発見を保存し、探索をさらに改善する相互作用履歴を定期的に要約する2つの軽量な介入について検討する。
関連論文リスト
- Using Large Language Models to Detect Socially Shared Regulation of Collaborative Learning [15.567266973412815]
予測モデルを拡張し、埋め込み型アプローチを用いて、社会的に共有された学習行動の制御を自動的に検出する。
我々は,大規模言語モデル(LLM)を要約ツールとして活用し,システムログに整合した学生対話のタスク認識表現を生成する。
その結果, テキストのみの埋め込みは, 実行やグループダイナミクスに関連するSSRLの挙動の検出において, より強力な性能が得られることがわかった。
論文 参考訳(メタデータ) (2026-01-08T00:30:46Z) - Multi-Turn Puzzles: Evaluating Interactive Reasoning and Strategic Dialogue in LLMs [21.192619293355502]
大きな言語モデル(LLM)は、明確で完全なステートメントで問題を解決するのに優れています。
このベンチマークは、複雑でインタラクティブなシナリオを扱う上で、現在のLLMの長所と短所に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-08-13T19:14:45Z) - Beyond the Buzz: A Pragmatic Take on Inference Disaggregation [2.9938991029619064]
本稿では,分散推論の大規模化に関する最初の体系的研究について述べる。
その結果,デアグリゲーションは交通パターンや大規模モデルにおいて最も有効であることが判明した。
論文 参考訳(メタデータ) (2025-06-05T18:47:49Z) - Disentangling Exploration of Large Language Models by Optimal Exploitation [17.346054308224993]
この研究は、探究を唯一の目的として分離し、エージェントに将来のリターンを高める情報収集を任せる。
我々は、最適達成可能なリターンに基づいて、不足した報酬を彼らの探索と搾取コンポーネントに分解する。
論文 参考訳(メタデータ) (2025-01-15T16:30:29Z) - Composable Interventions for Language Models [60.32695044723103]
言語モデルのテストタイム介入は、事実の正確性を高め、有害な出力を軽減し、コストのかかる再トレーニングなしにモデルの効率を向上させる。
しかし、新しい手法の洪水にもかかわらず、様々な種類の介入が独立して発展している。
複数の介入が同じ言語モデルに与える影響を研究するためのフレームワークである構成可能な介入を導入する。
論文 参考訳(メタデータ) (2024-07-09T01:17:44Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。