論文の概要: Enhancing LLM Planning Capabilities through Intrinsic Self-Critique
- arxiv url: http://arxiv.org/abs/2512.24103v1
- Date: Tue, 30 Dec 2025 09:23:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.343177
- Title: Enhancing LLM Planning Capabilities through Intrinsic Self-Critique
- Title(参考訳): 内在的自己批判によるLLM計画能力の向上
- Authors: Bernd Bohnet, Pierre-Alexandre Kamienny, Hanie Sedghi, Dilan Gorur, Pranjal Awasthi, Aaron Parisi, Kevin Swersky, Rosanne Liu, Azade Nova, Noah Fiedel,
- Abstract要約: 検証器などの外部ソースを使わずに、本質的な自己批判を通じてデータセットを計画する際の顕著な性能向上を示す。
自己批判が計画のパフォーマンスを大幅に向上させる方法について説明する。
- 参考スコア(独自算出の注目度): 34.77684636726252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We demonstrate an approach for LLMs to critique their \emph{own} answers with the goal of enhancing their performance that leads to significant improvements over established planning benchmarks. Despite the findings of earlier research that has cast doubt on the effectiveness of LLMs leveraging self critique methods, we show significant performance gains on planning datasets in the Blocksworld domain through intrinsic self-critique, without external source such as a verifier. We also demonstrate similar improvements on Logistics and Mini-grid datasets, exceeding strong baseline accuracies. We employ a few-shot learning technique and progressively extend it to a many-shot approach as our base method and demonstrate that it is possible to gain substantial improvement on top of this already competitive approach by employing an iterative process for correction and refinement. We illustrate how self-critique can significantly boost planning performance. Our empirical results present new state-of-the-art on the class of models considered, namely LLM model checkpoints from October 2024. Our primary focus lies on the method itself, demonstrating intrinsic self-improvement capabilities that are applicable regardless of the specific model version, and we believe that applying our method to more complex search techniques and more capable models will lead to even better performance.
- Abstract(参考訳): 提案手法は,従来の計画ベンチマークよりも大幅に改善されるような性能向上を目標として,LLMの「emph{own}」回答を批判するアプローチを示すものである。
自己批判的手法を用いたLCMの有効性に疑念を抱く先行研究の成果にもかかわらず,本質的な自己批判によるBlocksworldドメインのデータセットの計画において,検証などの外部ソースを使わずに大幅な性能向上が見られた。
また、ロジスティックスやミニグリッドのデータセットにも同様の改善が見られ、ベースラインの精度は高い。
我々は、数ショットの学習手法を採用し、それをベース手法として多ショットアプローチに徐々に拡張し、修正と改善の反復的プロセスを用いることで、既に競合しているアプローチの上に実質的な改善を得ることが可能であることを実証した。
自己批判が計画のパフォーマンスを大幅に向上させる方法について説明する。
実験結果から,2024年10月時点のLLMモデルチェックポイントについて検討した。
我々の主な焦点は、特定のモデルのバージョンによらず、本質的な自己改善能力を示すメソッドそのものであり、より複雑な検索技術やより有能なモデルにメソッドを適用することで、より優れたパフォーマンスをもたらすと信じている。
関連論文リスト
- Learning from Self Critique and Refinement for Faithful LLM Summarization [26.593763749112792]
大言語モデル(LLM)は、要約などの長文生成タスクを行う際に、幻覚に悩まされることが多い。
自己批判と再定義に基づく選好最適化(SCRPO)を提案する。
SCRPOは自己教師型トレーニングフレームワークで、まずLLMの批評と洗練機能を活用することで、好みのデータセットを構築する。
論文 参考訳(メタデータ) (2025-12-05T02:59:43Z) - Theoretical Modeling of LLM Self-Improvement Training Dynamics Through Solver-Verifier Gap [11.709132975874638]
理論的には、ソルバ検証ギャップの概念を用いて自己改善の訓練力学をモデル化する。
分析を拡張して、外部データがフレームワーク内のこれらのダイナミクスにどのように影響するかを調べます。
論文 参考訳(メタデータ) (2025-06-29T06:48:47Z) - RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models [10.449015816015566]
自己改善は、Large Language Model(LLM)の事前トレーニング、ポストトレーニング、テストタイム推論におけるメカニズムである。
本稿では,自己改善のための数学的定式化について述べる。
また、自己改善がいつ可能か、反復的な自己改善手順、その性能改善方法についても検討する。
論文 参考訳(メタデータ) (2024-12-03T18:47:26Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。