論文の概要: EscapeBench: Pushing Language Models to Think Outside the Box
- arxiv url: http://arxiv.org/abs/2412.13549v1
- Date: Wed, 18 Dec 2024 06:50:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:46:52.087795
- Title: EscapeBench: Pushing Language Models to Think Outside the Box
- Title(参考訳): EscapeBench: 言語モデルに箱の外について考える
- Authors: Cheng Qian, Peixuan Han, Qinyu Luo, Bingxiang He, Xiusi Chen, Yuji Zhang, Hongyi Du, Jiarui Yao, Xiaocheng Yang, Denghui Zhang, Yunzhu Li, Heng Ji,
- Abstract要約: EscapeBenchは、クリエイティブな推論を伴うエージェントに挑戦するために設計されたルームエスケープゲーム環境のベンチマークスイートである。
その結果,現在のLMモデルでは,動作メモリとChain-of-Thought推論が採用されているが,ヒントのない平均進行率は15%に過ぎなかった。
EscapeAgentは、Foresight(イノベーティブ・ツール・ユース)とReflection(未解決タスクの特定)による創造的推論を強化するためのフレームワークである。
- 参考スコア(独自算出の注目度): 49.44742596224033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language model agents excel in long-session planning and reasoning, but existing benchmarks primarily focus on goal-oriented tasks with explicit objectives, neglecting creative adaptation in unfamiliar environments. To address this, we introduce EscapeBench, a benchmark suite of room escape game environments designed to challenge agents with creative reasoning, unconventional tool use, and iterative problem-solving to uncover implicit goals. Our results show that current LM models, despite employing working memory and Chain-of-Thought reasoning, achieve only 15% average progress without hints, highlighting their limitations in creativity. To bridge this gap, we propose EscapeAgent, a framework designed to enhance creative reasoning through Foresight (innovative tool use) and Reflection (identifying unsolved tasks). Experiments show that EscapeAgent can execute action chains over 1,000 steps while maintaining logical coherence. It navigates and completes games with up to 40% fewer steps and hints, performs robustly across varying difficulty levels, and achieves higher action success rates with more efficient and innovative puzzle-solving strategies. All the data and codes are released.
- Abstract(参考訳): 言語モデルエージェントは長期的な計画と推論に優れていますが、既存のベンチマークは主に目標指向のタスクに重点を置いています。
EscapeBenchは、創造的推論、非伝統的ツールの使用、暗黙の目標を明らかにするための反復的な問題解決といったエージェントに挑戦するために設計された、ルームエスケープゲーム環境のベンチマークスイートである。
これらの結果から,現在のLMモデルでは,作業メモリとChain-of-Thought推論が採用されているが,ヒントのない平均的な進歩は15%に過ぎず,創造性に限界があることが示唆された。
このギャップを埋めるために、私たちは、Foresight(イノベーティブツールの使用)とReflection(未解決タスクの特定)による創造的推論を強化するために設計されたフレームワークであるEscapeAgentを提案する。
実験によると、EscapeAgentは論理コヒーレンスを維持しながら1000以上のステップでアクションチェーンを実行することができる。
最大40%のステップとヒントでゲームをナビゲートし、完了させ、様々な難易度にわたって堅牢に実行し、より効率的で革新的なパズル解決戦略でより高いアクション成功率を達成する。
すべてのデータとコードはリリースされます。
関連論文リスト
- VisEscape: A Benchmark for Evaluating Exploration-driven Decision-making in Virtual Escape Rooms [19.642395585971194]
私たちは、挑戦的な条件下でAIモデルを評価するために特別に設計された20の仮想エスケープルームのベンチマークであるVisEscapeを紹介します。
VisEscapeでは、最先端のマルチモーダルモデルでさえ一般的に部屋から逃れられず、進行と軌道のレベルにかなりの変化が見られる。
本稿では,メモリ,フィードバック,ReActモジュールを効果的に統合したVisEscaperを提案する。
論文 参考訳(メタデータ) (2025-03-18T16:59:09Z) - How Do Multimodal Large Language Models Handle Complex Multimodal Reasoning? Placing Them in An Extensible Escape Game [11.721839449847472]
マルチモーダル推論のベンチマークであるMM-Escapeを紹介する。
MM-Escapeは最終タスク完了と同時に中間モデル動作を強調している。
大規模な実験により、MLLMはスケールに関係なく、最も単純な部屋の脱出タスクを完了できることが示されている。
性能ボトルネックはモデルによって異なり、異なる障害モードとマルチモーダル推論能力の制限が明らかになる。
論文 参考訳(メタデータ) (2025-03-13T04:48:43Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [54.787341008881036]
Reinforced Meta-thinking Agents(ReMA)は,MARL(Multi-Agent Reinforcement Learning)を利用したメタ思考行動の抽出手法である。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
実験の結果、ReMAは複雑な推論タスクにおいて単一エージェントRLベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - Tell Me What to Track: Infusing Robust Language Guidance for Enhanced Referring Multi-Object Tracking [10.614327633823462]
参照マルチオブジェクト追跡(RMOT)は、任意の数のターゲットをローカライズすることを目的とした、新たなクロスモーダルタスクである。
我々は、不均衡の影響を軽減するために協調的マッチング戦略を実行し、新生児の標的を検出する能力を高める。
エンコーダでは,従来の作業のボトルネックを克服し,クロスモーダル・マルチスケール融合を統合し,強化する。
論文 参考訳(メタデータ) (2024-12-17T05:43:35Z) - KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.09074527006576]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。
この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。
我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文 参考訳(メタデータ) (2024-03-05T16:39:12Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Egocentric Planning for Scalable Embodied Task Achievement [6.870094263016224]
エゴセントリックプランニング(Egocentric Planning)は、複雑な環境におけるタスクを解決するために、シンボリックプランニングとオブジェクト指向のPOMDPを組み合わせた革新的なアプローチである。
国内タスク用に設計されたシミュレーション環境であるALFREDにおける我々のアプローチを評価し,そのスケーラビリティを実証した。
本手法では, エージェントの行動の前提条件と影響について, 信頼性の高い認識と記号的記述の特定, 学習が必要である。
論文 参考訳(メタデータ) (2023-06-02T06:41:24Z) - Reflexion: Language Agents with Verbal Reinforcement Learning [44.85337947858337]
リフレクション(Reflexion)は、ウェイトを更新するのではなく、言語フィードバックによって言語エージェントを強化する新しいフレームワークである。
様々なタイプ(スカラー値または自由形式言語)とフィードバック信号のソース(外部または内部シミュレート)を組み込むのに十分な柔軟性がある。
例えば、ReflexionはHumanEvalのコーディングベンチマークで91%のパス@1精度を達成した。
論文 参考訳(メタデータ) (2023-03-20T18:08:50Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。