論文の概要: Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs
- arxiv url: http://arxiv.org/abs/2602.21198v1
- Date: Tue, 24 Feb 2026 18:55:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.891967
- Title: Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs
- Title(参考訳): 試行錯誤から学ぶ: 身体的LLMの反射的テスト時間計画
- Authors: Yining Hong, Huang Huang, Manling Li, Li Fei-Fei, Jiajun Wu, Yejin Choi,
- Abstract要約: ロボットは、何がどうなったのか、なぜ失敗したのかを反映できず、展開を一連の独立した試行に転換する。
リフレクティブテストタイムプランニングを導入し、リフレクティブの2つのモードを統合する:textitreflection-in-actionと textitreflection-on-action
また、振り返りのリフレクションが含まれており、エージェントは事前の判断を再評価し、後向きでモデル更新を実行できます。
- 参考スコア(独自算出の注目度): 63.88783817420284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied LLMs endow robots with high-level task reasoning, but they cannot reflect on what went wrong or why, turning deployment into a sequence of independent trials where mistakes repeat rather than accumulate into experience. Drawing upon human reflective practitioners, we introduce Reflective Test-Time Planning, which integrates two modes of reflection: \textit{reflection-in-action}, where the agent uses test-time scaling to generate and score multiple candidate actions using internal reflections before execution; and \textit{reflection-on-action}, which uses test-time training to update both its internal reflection model and its action policy based on external reflections after execution. We also include retrospective reflection, allowing the agent to re-evaluate earlier decisions and perform model updates with hindsight for proper long-horizon credit assignment. Experiments on our newly-designed Long-Horizon Household benchmark and MuJoCo Cupboard Fitting benchmark show significant gains over baseline models, with ablative studies validating the complementary roles of reflection-in-action and reflection-on-action. Qualitative analyses, including real-robot trials, highlight behavioral correction through reflection.
- Abstract(参考訳): LLMは高いレベルのタスク推論をロボットに与えているが、何が起きたのか、なぜ失敗したのかを反映することはできず、ミスが経験に蓄積されるのではなく、一連の独立したトライアルへと展開する。
エージェントは、実行前に内部反射を用いて複数の候補アクションを生成し、スコア付けするためにテスト時間スケーリングを使用する。また、テスト時間トレーニングを使用して内部反射モデルと実行後の外部反射に基づくアクションポリシーを更新する。
振り返りのリフレクションも含み、エージェントが事前の判断を再評価し、適切なロングホライゾンクレジットの割り当てを後見してモデル更新を行えるようにします。
新たに設計されたLong-Horizon HouseholdベンチマークとMuJoCo Cupboard Fittingベンチマークの実験では,リフレクション・イン・アクションとリフレクション・オン・アクションの相補的な役割を検証した。
リアルロボットの試行を含む質的な分析は、反射による行動補正を強調する。
関連論文リスト
- PreFlect: From Retrospective to Prospective Reflection in Large Language Model Agents [30.225072803272273]
先進的な反射機構であるPreFlectを導入し,そのパラダイムをポストホック修正からプレ実行前へシフトさせる。
歴史的エージェントの軌跡から計画誤差を抽出し,過去の実行中に繰り返し観測された成功と失敗パターンを捉える。
論文 参考訳(メタデータ) (2026-02-06T20:42:44Z) - Teaching Large Reasoning Models Effective Reflection [62.73646680747003]
大規模推論モデル(LRM)は、最近、複雑な推論タスクにおいて印象的なパフォーマンスを示している。
しかし、すべてのリフレクションが有益であるとは限らない。
まず,自己批判のみを用いてモデルの反射的推論能力を高める訓練フレームワークである自己批判ファインチューニング(SCFT)を提案する。
論文 参考訳(メタデータ) (2026-01-19T04:51:53Z) - First Try Matters: Revisiting the Role of Reflection in Reasoning Models [66.39546876232512]
我々は、モデルがすでに答を生み出しているが、その出力を確定する前に反射し続ける反射行動に焦点を当てる。
分析の結果,反射はおおむね肯定的であり,モデルの初期回答を変えることは滅多にないことがわかった。
本稿では,いくつかの候補解が生成されると推論プロセスが停止し,推論時間のトークン効率を向上させる質問認識早期検索手法を提案する。
論文 参考訳(メタデータ) (2025-10-09T14:57:10Z) - SAMULE: Self-Learning Agents Enhanced by Multi-level Reflection [14.40651157974557]
SAMULEは、多層反射合成に基づいて訓練された振り返り言語モデルを活用した、自己学習エージェントのための新しいフレームワークである。
まず、細かなエラー訂正のための単一軌道学習(マイクロレベル)、同じタスクの複数の試行でエラーを発生させるタスク内学習(メソレベル)、さまざまなタスク障害から同一の型付きエラーに基づいて伝達可能な洞察を抽出するタスク間学習(マクロレベル)の3段階にわたる高品質なリフレクションを合成する。
論文 参考訳(メタデータ) (2025-09-24T21:02:15Z) - Unveiling the Latent Directions of Reflection in Large Language Models [3.396557052704669]
モデルアクティベーションにおける遅延方向レンズによる反射について検討する。
新しい反射誘導命令は体系的に識別でき、反射行動を直接強化または抑制することができる。
この研究は、大きな言語モデルにおける反射的推論の機械論的理解への道を開く。
論文 参考訳(メタデータ) (2025-08-23T11:05:15Z) - Perception in Reflection [39.33505560810175]
本稿では,現在の大規模視覚言語モデルの限界を超越したリフレクションパラダイムを提案する。
本稿では、ポリシーと批判モデルとを体系的に交互に交互に行う二重モデル反射機構である反射知覚(RePer)を提案する。
論文 参考訳(メタデータ) (2025-04-09T17:59:02Z) - Instruct-of-Reflection: Enhancing Large Language Models Iterative Reflection Capabilities via Dynamic-Meta Instruction [11.838351314880736]
インストラクション・オブ・リフレクション(英: Instruct-of-Reflection、IoRT)は、大規模言語モデル(LLM)の反復的リフレクション能力を高めるために動的メタ命令を活用する、新しく一般的なリフレクションフレームワークである。
実験の結果、IoRTは数学的および常識的推論タスクにおいて、確立されたベースラインよりも平均10.1%向上していることがわかった。
論文 参考訳(メタデータ) (2025-03-02T14:02:03Z) - Meta-Reflection: A Feedback-Free Reflection Learning Framework [57.14485943991588]
外部からのフィードバックを伴わずに単一の推論パスのみを必要とするフィードバックフリーリフレクション機構であるメタリフレクションを提案する。
過去のリフレクションを記憶し、取り出す人間の能力によって、メタリフレクションはコードブックに反射的な洞察を統合する。
実世界のシナリオにおけるメタリフレクションの実践性を徹底的に検討し,評価するために,E-Commerce Customer Intent Detectionという産業eコマースベンチマークを導入する。
論文 参考訳(メタデータ) (2024-12-18T12:20:04Z) - Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives [45.87069217634753]
研究によると、外部からのフィードバックがなければ、Large Language Modelの本質的なリフレクションは不安定である。
我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。
要求に合わせて様々な解決の観点を適応的に探求し、相違点を対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。
論文 参考訳(メタデータ) (2024-01-04T00:32:33Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。