Fugu-MT 論文翻訳(概要): Distilling Reasoning Ability from Large Language Models with Adaptive Thinking

論文の概要: Distilling Reasoning Ability from Large Language Models with Adaptive Thinking

arxiv url: http://arxiv.org/abs/2404.09170v5
Date: Fri, 16 Aug 2024 02:21:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-19 10:58:09.047369
Title: Distilling Reasoning Ability from Large Language Models with Adaptive Thinking
Title（参考訳）: 適応的思考を伴う大規模言語モデルからの蒸留推論能力
Authors: Xiaoshu Chen, Sihang Zhou, Ke Liang, Xinwang Liu,
Abstract要約: 思考の微調整(cot-finetuning)の連鎖は、小さな言語モデル(SLM)を特定のタスクに対するパフォーマンス向上の推論能力で実現することを目的としている。既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。理性よりも先に回答を生成するための頑健な後思考機構を提案する。
参考スコア（独自算出の注目度）: 54.047761094420174
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Chain of thought finetuning (cot-finetuning) aims to endow small language models (SLM) with reasoning ability to improve their performance towards specific tasks by allowing them to imitate the reasoning procedure of large language models (LLM) beyond simply predicting the answers. Most existing cot-finetuning methods adopt a pre-thinking mechanism, allowing the SLM to generate a rationale before providing an answer. This mechanism enables SLM to analyze and think about complex questions, but it also makes answer correctness highly sensitive to minor errors in rationale. Therefore, we propose a robust post-thinking mechanism to generate answers before rationale. Thanks to this answer-first setting, 1) the answer can escape from the adverse effects caused by minor errors in the rationale; 2) the rationale serves as an error amplifier to the answer, which makes the SLM focus on learning hard samples; 3) the inferring efficiency can also benefit from the setting since users can stop the generation right after answers are outputted when inference is conducted. However, although the post-thinking mechanism brings many advantages and improves the overall performance of SLM on specific tasks, it may lose the ability to think about the questions and decompose complex questions into simple sub-questions compared to pre-thinking mechanism. Therefore, a plug-and-play adaptive-thinking mechanism is proposed with the aid of the soft prompt tuning to integrate the merits of the pre-thinking mechanism and post-thinking mechanism, in which a perception module is introduced to adaptively prompt SLM answer or think first based on perceiving the complexity of the questions. Extensive experiments are conducted across 12 reasoning tasks and 2 representative language models to demonstrate the effectiveness of the proposed mechanism.
Abstract（参考訳）: 思考微調整の連鎖 (cot-finetuning) は、単に答えを予測するだけでなく、大きな言語モデル(LLM)の推論手順を模倣することで、特定のタスクに対してパフォーマンスを改善する推論能力を持つ小さな言語モデル (SLM) を育むことを目的としている。既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。そこで本稿では,理性よりも先に回答を生成するための頑健なポスト思考機構を提案する。この回答ファースト設定のおかげです。 1) 答は,理性上のミスによる悪影響から逃れることができる。 2 理性は、答の誤り増幅器として機能し、SLM は、ハードサンプルの学習に重点を置いている。 3)推論効率は、推論を行う際に回答が出力された直後に、ユーザが生成を停止できるので、設定の恩恵を受けることができる。しかし、ポスト思考メカニズムは多くの利点をもたらし、特定のタスクにおけるSLMの全体的な性能を向上させるが、質問について考え、複雑な質問を事前思考メカニズムと比較して単純なサブクエストに分解する能力を失う可能性がある。そこで,事前思考機構と後思考機構の利点を統合するためのソフト・プロンプト・チューニングによるプラグアンドプレイ適応思考機構を提案する。提案手法の有効性を実証するため,12の推論課題と2つの代表言語モデルに対して大規模な実験を行った。

関連論文リスト

Selection, Reflection and Self-Refinement: Revisit Reasoning Tasks via a Causal Lens [19.316594303998667]
推論タスクは、機械学習モデルの能力を評価するための厳格なベンチマークとみなされてきた。我々は、因果的視点から推論タスクを再考し、潜在空間におけるそれらの振る舞いを理解する。 SR$2$と呼ばれるフレームワークを導入し、推定された潜在変数を選択機構にフィードバックとして組み込む。
論文参考訳（メタデータ） (2025-10-09T13:45:31Z)
MixReasoning: Switching Modes to Think [79.70845484191543]
推論モデルは、ステップバイステップで問題に取り組むことでパフォーマンスを向上させる。あらゆるステップに拡張推論を適用することは、かなりの冗長性をもたらす。一つの応答内で推論の深さを動的に調整するフレームワークであるMixReasoningを提案する。
論文参考訳（メタデータ） (2025-10-07T15:46:34Z)
Explore Briefly, Then Decide: Mitigating LLM Overthinking via Cumulative Entropy Regulation [82.62935304152239]
大規模言語モデル(LLM)は、長いチェーン・オブ・ソート(CoT)推論を用いた複雑な問題に対する顕著な推論能力を示した。しばしば過度の思考に悩まされ、単純な問題に対して必要以上に長い推論ステップが生じる。本稿では, 推論過程を通じて探索範囲を計測する新しい計量量であるToken Entropy Cumulative Average(TECA)を紹介する。
論文参考訳（メタデータ） (2025-10-02T17:36:50Z)
ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models [76.28894983518164]
小型言語モデル (SLM) は大規模言語モデル (LLM) に代わる費用対効果がある。彼らはしばしば、限られた能力と間違いや一貫性のない答えを生み出す傾向があるため、複雑な推論に苦しむ。本稿では、垂直領域における堅牢かつ自己充足的推論のための強化学習フレームワークであるReaLMを紹介する。
論文参考訳（メタデータ） (2025-08-17T14:50:23Z)
AdapThink: Adaptive Thinking Preferences for Reasoning Language Model [32.47427081297578]
強化学習(RL)に基づくポストトレーニングは、言語モデルの複雑な推論能力を大幅に向上させた。しかし、この緩やかな思考のパラダイムは、効率を推理する上で重要な課題である。より効率的な思考を促すために,適応的なポストトレーニングフレームワークAdapThinkを提案する。
論文参考訳（メタデータ） (2025-06-23T02:06:04Z)
Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文参考訳（メタデータ） (2025-05-20T16:53:40Z)
Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。 Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文参考訳（メタデータ） (2025-05-19T17:24:16Z)
Critique Before Thinking: Mitigating Hallucination through Rationale-Augmented Instruction Tuning [16.86024541396427]
Re-Criticは、論理的説明で生の指示を強化する視覚的合理性合成器である。 Re-Criticはコンテキスト内自己批判機構を使用して、優先順位調整のための応答ペアを選択する。実験により、有理拡大されたデータセットで微調整されたモデルでは、幻覚特異的なタスクからより広範なマルチモーダル推論タスクにまで及ぶ利益が得られます。
論文参考訳（メタデータ） (2025-05-12T01:51:50Z)
FReM: A Flexible Reasoning Mechanism for Balancing Quick and Slow Thinking in Long-Context Question Answering [18.213334065233465]
FReM: Flexible Reasoning Mechanism(フレキシブル推論機構)は,各質問の複雑さに応じて推論深度を調整する手法である。具体的には、FReMは合成参照QAの例を利用して、明確な思考の連鎖を提供し、単純なクエリの効率的な処理を可能にする。 7つのQAデータセットの実験から、FReMは推論精度とスケーラビリティ、特に複雑なマルチホップ問題を改善することが示されている。
論文参考訳（メタデータ） (2025-03-29T06:20:12Z)
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文参考訳（メタデータ） (2025-01-30T18:58:18Z)
Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。大規模な実験により,提案システムの有効性が検証された。
論文参考訳（メタデータ） (2024-10-18T05:30:33Z)
Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning [0.0]
反復的人間のエンゲージメントは、大規模言語モデル(LLM)の高度な言語処理能力を活用するための一般的かつ効果的な手段である。思考の反復(IoT)フレームワークを提案する。静的アプローチや半静的アプローチとは異なり、IoTは進化するコンテキストに基づいて推論パスを動的に適応する。
論文参考訳（メタデータ） (2024-09-19T09:44:17Z)
Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文参考訳（メタデータ） (2024-07-25T17:35:59Z)
Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文参考訳（メタデータ） (2024-05-26T22:30:29Z)
Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。このアプローチは、正しい答えが少数派である場合に失敗する。階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文参考訳（メタデータ） (2024-05-21T17:12:19Z)
Tuning-Free Accountable Intervention for LLM Deployment -- A Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文参考訳（メタデータ） (2024-03-08T19:18:53Z)
On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks [17.329365493094542]
ゲーム・オブ・24(Game of 24)とグラフカラー化(Graph Coloring)とSTRIPSプランニング(STRIPS Planning)の3分野において,GPT-4の性能に関する実証的研究を行った。我々は,自己批判による顕著なパフォーマンス崩壊と,音外検証による顕著なパフォーマンス向上を観察した。
論文参考訳（メタデータ） (2024-02-12T23:11:01Z)
LaRS: Latent Reasoning Skills for Chain-of-Thought Reasoning [61.7853049843921]
Chain-of-Thoughting(CoT)プロンプトは、大規模言語モデル(LLM)のための一般的なコンテキスト内学習手法である。本稿では、教師なし学習を用いて有理数の潜在空間表現を生成するLaRS(Lalatnt Reasoning Skills)という新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-12-07T20:36:10Z)
Concise and Organized Perception Facilitates Reasoning in Large Language Models [32.71672086718057]
大規模言語モデル (LLM) は, 推論作業における乱雑な内容や無関係な内容を扱う際に, 人間の認知バイアスに類似した障害パターンを示す。コンシス・アンド・オーガナイズド・パーセプション(COP)という新しい推論手法を提案する。 COPは与えられたステートメントを慎重に分析し、冗長性を効率的に排除しながら、最も関連する情報を識別する。
論文参考訳（メタデータ） (2023-10-05T04:47:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。