論文の概要: STEPER: Step-wise Knowledge Distillation for Enhancing Reasoning Ability in Multi-Step Retrieval-Augmented Language Models
- arxiv url: http://arxiv.org/abs/2510.07923v1
- Date: Thu, 09 Oct 2025 08:20:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.952036
- Title: STEPER: Step-wise Knowledge Distillation for Enhancing Reasoning Ability in Multi-Step Retrieval-Augmented Language Models
- Title(参考訳): STEPER:多段階検索言語モデルにおける推論能力向上のためのステップワイズ知識蒸留
- Authors: Kyumin Lee, Minjin Jeon, Sanghwan Jang, Hwanjo Yu,
- Abstract要約: 多段階検索言語モデル(StepER)における推論能力向上のためのステップワイズ知識蒸留法を提案する。
StepERは、進化する情報とステージ間の推論要求に合わせるために、段階的に監督する。
難易度学習を取り入れ、適切なステップを優先順位付けすることで学習を段階的に最適化する。
- 参考スコア(独自算出の注目度): 17.39002268254497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Answering complex real-world questions requires step-by-step retrieval and integration of relevant information to generate well-grounded responses. However, existing knowledge distillation methods overlook the need for different reasoning abilities at different steps, hindering transfer in multi-step retrieval-augmented frameworks. To address this, we propose Stepwise Knowledge Distillation for Enhancing Reasoning Ability in Multi-Step Retrieval-Augmented Language Models (StepER). StepER employs step-wise supervision to align with evolving information and reasoning demands across stages. Additionally, it incorporates difficulty-aware training to progressively optimize learning by prioritizing suitable steps. Our method is adaptable to various multi-step retrieval-augmented language models, including those that use retrieval queries for reasoning paths or decomposed questions. Extensive experiments show that StepER outperforms prior methods on multi-hop QA benchmarks, with an 8B model achieving performance comparable to a 70B teacher model.
- Abstract(参考訳): 複雑な現実世界の質問に答えるには、適切な応答を生成するために、ステップバイステップの検索と関連する情報の統合が必要である。
しかし、既存の知識蒸留法は、異なる段階における異なる推論能力の必要性を軽視し、多段階検索強化フレームワークにおける移動を妨げる。
そこで本稿では,多段階検索言語モデル(StepER)における推論能力を高めるためのステップワイズ知識蒸留法を提案する。
StepERは、進化する情報とステージ間の推論要求に合わせるために、段階的に監督する。
さらに、適切なステップを優先順位付けすることで、学習を段階的に最適化する難易度学習も組み込まれている。
提案手法は,検索クエリを推論パスや分解された質問に使用するような,多段階検索拡張言語モデルに適用可能である。
大規模な実験により、StepERは、マルチホップQAベンチマークにおいて、70Bの教師モデルに匹敵するパフォーマンスを達成する8Bモデルで、先行手法よりも優れていることが示された。
関連論文リスト
- StepWiser: Stepwise Generative Judges for Wiser Reasoning [52.32416311990343]
プロセス報酬モデルは、ステップバイステップのフィードバックを提供することによって、この問題に対処する。
近年の進歩に触発されて、分類タスクから推論タスク自体への段階的な報酬モデリングを再構築しました。
既存の手法よりも中間段階の精度が向上し, (ii) 訓練時の政策モデルの改善に利用でき, (iii) 推論時探索の改善が図られている。
論文 参考訳(メタデータ) (2025-08-26T17:45:05Z) - Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique [66.94905631175209]
我々は、段階的に自然言語の自己批判(PANEL)を行う新しい推論時間スケーリング手法を提案する。
ステップレベルの探索プロセスのガイドとして、自己生成の自然言語批判をフィードバックとして採用している。
このアプローチは、タスク固有の検証と関連するトレーニングオーバーヘッドの必要性を回避します。
論文 参考訳(メタデータ) (2025-03-21T17:59:55Z) - SDRT: Enhance Vision-Language Models by Self-Distillation with Diverse Reasoning Traces [11.462550020102935]
視覚言語モデルのための新しい自己蒸留フレームワークを提案する。
我々は、多様なコンテキスト内質問を生成するために、視覚的推論タスクに適したプロンプトライブラリを採用する。
次に,2段階の推論手法を用いて推論誘導応答を導出する。
これらの反応は自己蒸留に使用され、モデルが推論プロセスの内部化を可能にする。
論文 参考訳(メタデータ) (2025-03-03T17:24:42Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Shepherd Pre-trained Language Models to Develop a Train of Thought: An
Iterative Prompting Approach [30.117038793151004]
プレトレーニング言語モデル(PLM)は、複雑で多段階の推論手順を必要とするタスクを解決するために知識をリコールすることができない。
人間がこれらのタスクのために「思考の訓練」を開発するのと同じように、どのようにしてPLMにそのような能力を持たせることができるのか?
本稿では,現在のステップのコンテキスト上で条件付きプロンプトを動的に合成することで,これらの制約に対処する反復型コンテキスト認識プロンプトを提案する。
論文 参考訳(メタデータ) (2022-03-16T04:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。