Fugu-MT 論文翻訳(概要): Post-Semantic-Thinking: A Robust Strategy to Distill Reasoning Capacity from Large Language Models

論文の概要: Post-Semantic-Thinking: A Robust Strategy to Distill Reasoning Capacity from Large Language Models

arxiv url: http://arxiv.org/abs/2404.09170v1
Date: Sun, 14 Apr 2024 07:19:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 15:07:53.734464
Title: Post-Semantic-Thinking: A Robust Strategy to Distill Reasoning Capacity from Large Language Models
Title（参考訳）: セマンティック・シンキング後:大規模言語モデルから推論能力を拡張するためのロバスト戦略
Authors: Xiao Chen, Sihang Zhou, Ke Liang, Xinwang Liu,
Abstract要約: 思考の微調整の連鎖は、特定のタスクに向けたパフォーマンスを改善するために、推論能力を持つ小さな学生モデルを提供することを目的としている。本稿では,理性前に回答を生成するために,PST(Post-Semantic-Thinking)戦略を提案する。
参考スコア（独自算出の注目度）: 55.25810027251534
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Chain of thought finetuning aims to endow small student models with reasoning capacity to improve their performance towards a specific task by allowing them to imitate the reasoning procedure of large language models (LLMs) beyond simply predicting the answer to the question. However, the existing methods 1) generate rationale before the answer, making their answer correctness sensitive to the hallucination in the rationale;2) force the student model to repeat the exact LLMs rationale expression word-after-word, which could have the model biased towards learning the expression in rationale but count against the model from understanding the core logic behind it. Therefore, we propose a robust Post-Semantic-Thinking (PST) strategy to generate answers before rationale. Thanks to this answer-first setting, 1) the answering procedure can escape from the adverse effects caused by hallucinations in the rationale; 2) the complex reasoning procedure is tightly bound with the relatively concise answer, making the reasoning for questions easier with the prior information in the answer; 3) the efficiency of the method can also benefit from the setting since users can stop the generation right after answers are outputted when inference is conducted. Furthermore, the PST strategy loose the constraint against the generated rationale to be close to the LLMs gold standard in the hidden semantic space instead of the vocabulary space, thus making the small student model better comprehend the semantic reasoning logic in rationale. Extensive experiments conducted across 12 reasoning tasks demonstrate the effectiveness of PST.
Abstract（参考訳）: 思考の微調整の連鎖は、質問に対する答えを単に予測するだけでなく、大きな言語モデル(LLM)の推論手順を模倣することで、特定のタスクに対する性能向上のための推論能力を持つ小さな学生モデルを提供することを目的としている。しかし、既存の方法 1) 解答の前に理性を生成し, 解答の正しさを理性における幻覚に敏感にする; 2) 学生モデルに対して, LLMの理性表現を正確に繰り返すように強制する。そこで本稿では,理性よりも先に回答を生成するために,PST(Post-Semantic-Thinking)戦略を提案する。この回答ファースト設定のおかげです。 1) 答弁手続は,合理性における幻覚による悪影響から逃れることができる。 2 複雑な推論手順は、比較的簡潔な解答と密接な結びつきがあり、その解答の先行情報により、質問の推論が容易になる。 3)提案手法の効率性は,推論の実行時に回答が出力された直後に生成を停止できるため,設定の恩恵を受けることができる。さらに、PST戦略は、生成された論理学に対する制約を語彙空間の代わりに隠された意味空間において LLMs Gold Standard に近いものにすることで、小学生モデルは論理学における意味論的推論論理をよりよく理解する。 12の推論タスクにわたる大規模な実験により、PSTの有効性が示された。

関連論文リスト

AdapThink: Adaptive Thinking Preferences for Reasoning Language Model [32.47427081297578]
強化学習(RL)に基づくポストトレーニングは、言語モデルの複雑な推論能力を大幅に向上させた。しかし、この緩やかな思考のパラダイムは、効率を推理する上で重要な課題である。より効率的な思考を促すために,適応的なポストトレーニングフレームワークAdapThinkを提案する。
論文参考訳（メタデータ） (2025-06-23T02:06:04Z)
Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文参考訳（メタデータ） (2025-05-20T16:53:40Z)
Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。 Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文参考訳（メタデータ） (2025-05-19T17:24:16Z)
Critique Before Thinking: Mitigating Hallucination through Rationale-Augmented Instruction Tuning [16.86024541396427]
Re-Criticは、論理的説明で生の指示を強化する視覚的合理性合成器である。 Re-Criticはコンテキスト内自己批判機構を使用して、優先順位調整のための応答ペアを選択する。実験により、有理拡大されたデータセットで微調整されたモデルでは、幻覚特異的なタスクからより広範なマルチモーダル推論タスクにまで及ぶ利益が得られます。
論文参考訳（メタデータ） (2025-05-12T01:51:50Z)
FReM: A Flexible Reasoning Mechanism for Balancing Quick and Slow Thinking in Long-Context Question Answering [18.213334065233465]
FReM: Flexible Reasoning Mechanism(フレキシブル推論機構)は,各質問の複雑さに応じて推論深度を調整する手法である。具体的には、FReMは合成参照QAの例を利用して、明確な思考の連鎖を提供し、単純なクエリの効率的な処理を可能にする。 7つのQAデータセットの実験から、FReMは推論精度とスケーラビリティ、特に複雑なマルチホップ問題を改善することが示されている。
論文参考訳（メタデータ） (2025-03-29T06:20:12Z)
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文参考訳（メタデータ） (2025-01-30T18:58:18Z)
Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。大規模な実験により,提案システムの有効性が検証された。
論文参考訳（メタデータ） (2024-10-18T05:30:33Z)
Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning [0.0]
反復的人間のエンゲージメントは、大規模言語モデル(LLM)の高度な言語処理能力を活用するための一般的かつ効果的な手段である。思考の反復(IoT)フレームワークを提案する。静的アプローチや半静的アプローチとは異なり、IoTは進化するコンテキストに基づいて推論パスを動的に適応する。
論文参考訳（メタデータ） (2024-09-19T09:44:17Z)
Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文参考訳（メタデータ） (2024-07-25T17:35:59Z)
Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文参考訳（メタデータ） (2024-05-26T22:30:29Z)
Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。このアプローチは、正しい答えが少数派である場合に失敗する。階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文参考訳（メタデータ） (2024-05-21T17:12:19Z)
Tuning-Free Accountable Intervention for LLM Deployment -- A Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文参考訳（メタデータ） (2024-03-08T19:18:53Z)
On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks [17.329365493094542]
ゲーム・オブ・24(Game of 24)とグラフカラー化(Graph Coloring)とSTRIPSプランニング(STRIPS Planning)の3分野において,GPT-4の性能に関する実証的研究を行った。我々は,自己批判による顕著なパフォーマンス崩壊と,音外検証による顕著なパフォーマンス向上を観察した。
論文参考訳（メタデータ） (2024-02-12T23:11:01Z)
LaRS: Latent Reasoning Skills for Chain-of-Thought Reasoning [61.7853049843921]
Chain-of-Thoughting(CoT)プロンプトは、大規模言語モデル(LLM)のための一般的なコンテキスト内学習手法である。本稿では、教師なし学習を用いて有理数の潜在空間表現を生成するLaRS(Lalatnt Reasoning Skills)という新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-12-07T20:36:10Z)
Concise and Organized Perception Facilitates Reasoning in Large Language Models [32.71672086718057]
大規模言語モデル (LLM) は, 推論作業における乱雑な内容や無関係な内容を扱う際に, 人間の認知バイアスに類似した障害パターンを示す。コンシス・アンド・オーガナイズド・パーセプション(COP)という新しい推論手法を提案する。 COPは与えられたステートメントを慎重に分析し、冗長性を効率的に排除しながら、最も関連する情報を識別する。
論文参考訳（メタデータ） (2023-10-05T04:47:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。