論文の概要: EscapeBench: Pushing Language Models to Think Outside the Box
- arxiv url: http://arxiv.org/abs/2412.13549v1
- Date: Wed, 18 Dec 2024 06:50:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:49:56.515518
- Title: EscapeBench: Pushing Language Models to Think Outside the Box
- Title(参考訳): EscapeBench: 言語モデルに箱の外について考える
- Authors: Cheng Qian, Peixuan Han, Qinyu Luo, Bingxiang He, Xiusi Chen, Yuji Zhang, Hongyi Du, Jiarui Yao, Xiaocheng Yang, Denghui Zhang, Yunzhu Li, Heng Ji,
- Abstract要約: EscapeBenchは、クリエイティブな推論を伴うエージェントに挑戦するために設計されたルームエスケープゲーム環境のベンチマークスイートである。
その結果,現在のLMモデルでは,動作メモリとChain-of-Thought推論が採用されているが,ヒントのない平均進行率は15%に過ぎなかった。
EscapeAgentは、Foresight(イノベーティブ・ツール・ユース)とReflection(未解決タスクの特定)による創造的推論を強化するためのフレームワークである。
- 参考スコア(独自算出の注目度): 49.44742596224033
- License:
- Abstract: Language model agents excel in long-session planning and reasoning, but existing benchmarks primarily focus on goal-oriented tasks with explicit objectives, neglecting creative adaptation in unfamiliar environments. To address this, we introduce EscapeBench, a benchmark suite of room escape game environments designed to challenge agents with creative reasoning, unconventional tool use, and iterative problem-solving to uncover implicit goals. Our results show that current LM models, despite employing working memory and Chain-of-Thought reasoning, achieve only 15% average progress without hints, highlighting their limitations in creativity. To bridge this gap, we propose EscapeAgent, a framework designed to enhance creative reasoning through Foresight (innovative tool use) and Reflection (identifying unsolved tasks). Experiments show that EscapeAgent can execute action chains over 1,000 steps while maintaining logical coherence. It navigates and completes games with up to 40% fewer steps and hints, performs robustly across varying difficulty levels, and achieves higher action success rates with more efficient and innovative puzzle-solving strategies. All the data and codes are released.
- Abstract(参考訳): 言語モデルエージェントは長期的な計画と推論に優れていますが、既存のベンチマークは主に目標指向のタスクに重点を置いています。
EscapeBenchは、創造的推論、非伝統的ツールの使用、暗黙の目標を明らかにするための反復的な問題解決といったエージェントに挑戦するために設計された、ルームエスケープゲーム環境のベンチマークスイートである。
これらの結果から,現在のLMモデルでは,作業メモリとChain-of-Thought推論が採用されているが,ヒントのない平均的な進歩は15%に過ぎず,創造性に限界があることが示唆された。
このギャップを埋めるために、私たちは、Foresight(イノベーティブツールの使用)とReflection(未解決タスクの特定)による創造的推論を強化するために設計されたフレームワークであるEscapeAgentを提案する。
実験によると、EscapeAgentは論理コヒーレンスを維持しながら1000以上のステップでアクションチェーンを実行することができる。
最大40%のステップとヒントでゲームをナビゲートし、完了させ、様々な難易度にわたって堅牢に実行し、より効率的で革新的なパズル解決戦略でより高いアクション成功率を達成する。
すべてのデータとコードはリリースされます。
関連論文リスト
- Luban: Building Open-Ended Creative Agents via Autonomous Embodied Verification [34.97881486372797]
オープンエージェントの構築は常にAI研究の最終的な目標であり、クリエイティブエージェントはより魅力的です。
エージェントがギャップを埋める自律的な実施検証手法を導入し、創造的なタスクの基盤を築き上げます。
具体的には,2段階の自律的実施検証を取り入れた,Minecraftにおける創造的建築タスクを目標とするLubanエージェントを提案する。
論文 参考訳(メタデータ) (2024-05-24T10:25:59Z) - KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.09074527006576]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。
この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。
我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文 参考訳(メタデータ) (2024-03-05T16:39:12Z) - Egocentric Planning for Scalable Embodied Task Achievement [6.870094263016224]
エゴセントリックプランニング(Egocentric Planning)は、複雑な環境におけるタスクを解決するために、シンボリックプランニングとオブジェクト指向のPOMDPを組み合わせた革新的なアプローチである。
国内タスク用に設計されたシミュレーション環境であるALFREDにおける我々のアプローチを評価し,そのスケーラビリティを実証した。
本手法では, エージェントの行動の前提条件と影響について, 信頼性の高い認識と記号的記述の特定, 学習が必要である。
論文 参考訳(メタデータ) (2023-06-02T06:41:24Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Stein Variational Goal Generation for adaptive Exploration in Multi-Goal
Reinforcement Learning [18.62133925594957]
マルチゴール強化学習では、エージェントは関連するトレーニングタスク間で経験を共有することができ、テスト時により一般化される。
本研究は,エージェントの中間的難易度を目標とするStein Variational Goal Generation (SVGG)を提案する。
目標の分布は、スタイン変分勾配Descentを用いて適切な困難領域に惹きつけられる粒子でモデル化される。
論文 参考訳(メタデータ) (2022-06-14T10:03:17Z) - Discovering and Achieving Goals via World Models [61.95437238374288]
この問題に対する統一的なソリューションであるLatent Explorer Achiever (LEXA)を紹介する。
LEXAはイメージ入力から世界モデルを学び、それをエクスプローラーのトレーニングや、想像上のロールアウトから達成ポリシーに利用する。
教師なしフェーズの後、LEXAは追加の学習なしにゴール画像ゼロショットとして指定されたタスクを解決する。
論文 参考訳(メタデータ) (2021-10-18T17:59:58Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。