論文の概要: Localizing and Correcting Errors for LLM-based Planners
- arxiv url: http://arxiv.org/abs/2602.00276v1
- Date: Fri, 30 Jan 2026 19:56:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.089552
- Title: Localizing and Correcting Errors for LLM-based Planners
- Title(参考訳): LLM平面の局所化と修正誤差
- Authors: Aditya Kumar, William W. Cohen,
- Abstract要約: 大規模言語モデル(LLM)は数学やコーディングにおいて強い推論能力を示しているが、古典的な計画課題ではしばしば失敗する。
そこで本研究では,L-ICL(Localized In-Context Learning)による命令を反復的に拡張する手法を提案する。
L-ICLはトレースの最初の制約違反を特定し、失敗するステップに対して正しい振る舞いを与える最小の入出力サンプルを注入する。
例えば、8x8グリッドワールドでは、L-ICLは60のトレーニング例で89%の有効プランを生成しており、最高のベースラインでは59%、30%の増加となっている。
- 参考スコア(独自算出の注目度): 22.345408483066223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated strong reasoning capabilities on math and coding, but frequently fail on symbolic classical planning tasks. Our studies, as well as prior work, show that LLM-generated plans routinely violate domain constraints given in their instructions (e.g., walking through walls). To address this failure, we propose iteratively augmenting instructions with Localized In-Context Learning (L-ICL) demonstrations: targeted corrections for specific failing steps. Specifically, L-ICL identifies the first constraint violation in a trace and injects a minimal input-output example giving the correct behavior for the failing step. Our proposed technique of L-ICL is much effective than explicit instructions or traditional ICL, which adds complete problem-solving trajectories, and many other baselines. For example, on an 8x8 gridworld, L-ICL produces valid plans 89% of the time with only 60 training examples, compared to 59% for the best baseline, an increase of 30%. L-ICL also shows dramatic improvements in other domains (gridworld navigation, mazes, Sokoban, and BlocksWorld), and on several LLM architectures.
- Abstract(参考訳): 大規模言語モデル(LLM)は数学やコーディングにおいて強い推論能力を示しているが、古典的な計画課題ではしばしば失敗する。
我々の研究は、以前の研究と同様に、LCMが生成した計画は、命令(例えば、壁を歩くなど)のドメイン制約に規則的に違反することを示した。
この障害に対処するために、我々はLocalized In-Context Learning (L-ICL) による命令を反復的に強化することを提案する。
具体的には、L-ICLはトレースの最初の制約違反を特定し、失敗するステップに対して正しい振る舞いを与える最小の入出力例を注入する。
提案手法は明示的な命令や従来のICLよりも効果的であり,完全解法やその他多くのベースラインを付加する。
例えば、8x8グリッドワールドでは、L-ICLは60のトレーニング例で89%の有効プランを生成しており、最高のベースラインでは59%、30%の増加となっている。
L-ICLは他のドメイン(グリッドワールドナビゲーション、迷路、ソコバン、BlocksWorld)やいくつかのLLMアーキテクチャでも劇的に改善されている。
関連論文リスト
- Counting Hypothesis: Potential Mechanism of In-Context Learning [0.4583541422554718]
In-Context Learning (ICL) は、大量のデータに事前訓練された大規模言語モデル(LLM)が入力プロンプトの例から特定のタスクを学習できることを示している。
ICLのカウント仮説について提案し,LSMの符号化戦略がICLを弱体化させる可能性が示唆された。
論文 参考訳(メタデータ) (2026-02-02T05:57:33Z) - Explainable Fault Localization for Programming Assignments via LLM-Guided Annotation [11.152318521395756]
そこで本研究では,プログラムの代入に適したFact Localization法であるFLAMEを提案する。
行番号を直接予測する代わりに、私たちはLCMに詳細な説明とともに、欠陥コード行に注釈を付けるように促します。
FLAMEは、プログラムの割り当てに対して最先端のフォールトローカライゼーションベースラインを上回り、最高のパフォーマンスベースラインよりもトップ1で207のフォールトをローカライズすることに成功した。
論文 参考訳(メタデータ) (2025-09-30T02:23:07Z) - Understanding and Mitigating Errors of LLM-Generated RTL Code [7.747889860813149]
大規模言語モデル (LLM) ベースのレジスタ転送レベル (RTL) コード生成は有望であるが、全体的な成功率は相変わらず不満足である。
包括的なエラー解析と手動分類を行う。
その結果、ほとんどのエラーはRTLプログラミングの知識不足、回路概念の理解不足、複雑なマルチモーダル入力の誤解釈によるものであることが判明した。
論文 参考訳(メタデータ) (2025-08-07T11:02:32Z) - Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である
動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。
これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - Planning Anything with Rigor: General-Purpose Zero-Shot Planning with LLM-based Formalized Programming [13.246017517159043]
大規模言語モデル(LLM)は近年,計画問題の解決に強い可能性を示している。
LLpreview は LLM を利用して,計画上の問題から重要な情報を抽出し,それらをスクラッチから最適化するフレームワークである。
GPToとClaude 3.5 Sonnetの9つのタスクに対して,LLが平均83.7%,86.8%の最適速度で達成できることを実証した。
論文 参考訳(メタデータ) (2024-10-15T23:20:54Z) - Control Large Language Models via Divide and Conquer [94.48784966256463]
本稿では,Lexically Constrained Generation(LCG)に着目し,大規模言語モデル(LLM)のプロンプトベース制御による制御可能生成について検討する。
我々は,レキシカル制約を満たすためのLLMの性能を,プロンプトベース制御により評価し,下流アプリケーションでの有効性を検証した。
論文 参考訳(メタデータ) (2024-10-06T21:20:06Z) - Is In-Context Learning Sufficient for Instruction Following in LLMs? [38.29072578390376]
実効性はあるものの, MT-Bench の命令微調整と比較すると, ICL とAL とのアライメントは依然として不十分であることがわかった。
我々は、我々の知識、ICLの体系的比較、低データ体制における命令追従のための命令微調整(IFT)を初めて提供する。
論文 参考訳(メタデータ) (2024-05-30T09:28:56Z) - The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context
Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。
これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。
本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-12-04T00:46:11Z) - When does In-context Learning Fall Short and Why? A Study on
Specification-Heavy Tasks [54.71034943526973]
In-context Learning (ICL)は、大規模言語モデル(LLM)のデフォルトメソッドとなっている。
ICLは、複雑で広範囲なタスク仕様を持つタスクである、仕様の重いタスクを処理できないことが分かりました。
我々は、コンテキストを具体的に理解できないこと、タスクスキーマが人間と理解できないこと、長文理解が不十分であること、の3つの主な理由を識別する。
論文 参考訳(メタデータ) (2023-11-15T14:26:30Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。
トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。