論文の概要: Post-Semantic-Thinking: A Robust Strategy to Distill Reasoning Capacity from Large Language Models
- arxiv url: http://arxiv.org/abs/2404.09170v2
- Date: Tue, 16 Apr 2024 07:38:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 11:43:48.345688
- Title: Post-Semantic-Thinking: A Robust Strategy to Distill Reasoning Capacity from Large Language Models
- Title(参考訳): セマンティック・シンキング後:大規模言語モデルから推論能力を拡張するためのロバスト戦略
- Authors: Xiaoshu Chen, Sihang Zhou, Ke Liang, Xinwang Liu,
- Abstract要約: 思考の微調整の連鎖は、特定のタスクに向けたパフォーマンスを改善するために、推論能力を持つ小さな学生モデルを提供することを目的としている。
本稿では,理性前に回答を生成するために,PST(Post-Semantic-Thinking)戦略を提案する。
- 参考スコア(独自算出の注目度): 54.047761094420174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain of thought finetuning aims to endow small student models with reasoning capacity to improve their performance towards a specific task by allowing them to imitate the reasoning procedure of large language models (LLMs) beyond simply predicting the answer to the question. However, the existing methods 1) generate rationale before the answer, making their answer correctness sensitive to the hallucination in the rationale;2) force the student model to repeat the exact LLMs rationale expression word-after-word, which could have the model biased towards learning the expression in rationale but count against the model from understanding the core logic behind it. Therefore, we propose a robust Post-Semantic-Thinking (PST) strategy to generate answers before rationale. Thanks to this answer-first setting, 1) the answering procedure can escape from the adverse effects caused by hallucinations in the rationale; 2) the complex reasoning procedure is tightly bound with the relatively concise answer, making the reasoning for questions easier with the prior information in the answer; 3) the efficiency of the method can also benefit from the setting since users can stop the generation right after answers are outputted when inference is conducted. Furthermore, the PST strategy loose the constraint against the generated rationale to be close to the LLMs gold standard in the hidden semantic space instead of the vocabulary space, thus making the small student model better comprehend the semantic reasoning logic in rationale. Extensive experiments conducted across 12 reasoning tasks demonstrate the effectiveness of PST.
- Abstract(参考訳): 思考の微調整の連鎖は、質問に対する答えを単に予測するだけでなく、大きな言語モデル(LLM)の推論手順を模倣することで、特定のタスクに対する性能向上のための推論能力を持つ小さな学生モデルを提供することを目的としている。
しかし、既存の方法
1) 解答の前に理性を生成し, 解答の正しさを理性における幻覚に敏感にする; 2) 学生モデルに対して, LLMの理性表現を正確に繰り返すように強制する。
そこで本稿では,理性よりも先に回答を生成するために,PST(Post-Semantic-Thinking)戦略を提案する。
この回答ファースト設定のおかげです。
1) 答弁手続は,合理性における幻覚による悪影響から逃れることができる。
2 複雑な推論手順は、比較的簡潔な解答と密接な結びつきがあり、その解答の先行情報により、質問の推論が容易になる。
3)提案手法の効率性は,推論の実行時に回答が出力された直後に生成を停止できるため,設定の恩恵を受けることができる。
さらに、PST戦略は、生成された論理学に対する制約を語彙空間の代わりに隠された意味空間において LLMs Gold Standard に近いものにすることで、小学生モデルは論理学における意味論的推論論理をよりよく理解する。
12の推論タスクにわたる大規模な実験により、PSTの有効性が示された。
関連論文リスト
- AURA: Natural Language Reasoning for Aleatoric Uncertainty in Rationales [0.0]
答の背後にある合理性は、モデル決定を説明するだけでなく、複雑な推論タスクをうまく推理するために言語モデルを促進する。
モデルパフォーマンスを促進するのに十分な根拠が忠実である程度を見積もるのは簡単ではない。
本稿では,不完全理理性に対処する方法を提案する。
論文 参考訳(メタデータ) (2024-02-22T07:12:34Z) - Towards More Faithful Natural Language Explanation Using Multi-Level
Contrastive Learning in VQA [7.141288053123662]
視覚的質問応答(VQA-NLE)における自然言語の説明は,ブラックボックスシステムに対するユーザの信頼を高めるために,自然言語文を生成することによって,モデルの意思決定プロセスを説明することを目的としている。
既存のポストホックな説明は、人間の論理的推論と常に一致している訳ではなく、1) 誘惑的不満足な説明は、生成した説明が論理的に答えに繋がらないこと、2) 現実的不整合性、2) 画像上の事実を考慮せずに解答の反事実的説明を偽示すること、3) 意味的摂動の過敏性、モデルは、小さな摂動によって引き起こされる意味的変化を認識できないこと、である。
論文 参考訳(メタデータ) (2023-12-21T05:51:55Z) - Latent Skill Discovery for Chain-of-Thought Reasoning [44.30408985857306]
本稿では、教師なし学習を用いて有理数の潜在空間表現を生成するReasoning Skill Discovery (RSD)を紹介する。
これにより、必要な推論スキルを示すサンプルの選択をガイドすることができる。
経験的に、RSDは複数の推論タスクで解答精度を最大6%向上させる。
論文 参考訳(メタデータ) (2023-12-07T20:36:10Z) - Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。
LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文 参考訳(メタデータ) (2023-11-10T16:23:50Z) - Implicit Chain of Thought Reasoning via Knowledge Distillation [58.80851216530288]
思考推論ステップの連鎖を明示的に生成する代わりに、言語モデルの内部の隠れ状態を使用して暗黙の推論を行います。
このアプローチにより、明示的にチェーン・オブ・シントなしでは解決不可能なタスクを、非チェーン・オブ・シントに匹敵する速度で解決できることが分かりました。
論文 参考訳(メタデータ) (2023-11-02T17:59:49Z) - From Indeterminacy to Determinacy: Augmenting Logical Reasoning
Capabilities with Large Language Models [79.88472218252224]
DetermLRは、推論プロセスを非決定的な前提から非決定的な前提へと転換する過程として定式化する、新しい推論フレームワークである。
DetermLRは、訪問する状態を少なくし、論理的推論タスクに対処する上で、その優れた効率性と有効性を強調しながら、より良い推論性能を達成することができる。
論文 参考訳(メタデータ) (2023-10-28T10:05:51Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z) - MetaLogic: Logical Reasoning Explanations with Fine-Grained Structure [129.8481568648651]
複雑な実生活シナリオにおけるモデルの論理的推論能力を調べるためのベンチマークを提案する。
推論のマルチホップ連鎖に基づいて、説明形式は3つの主成分を含む。
この新たな説明形式を用いて,現在のベストモデルの性能を評価した。
論文 参考訳(メタデータ) (2022-10-22T16:01:13Z) - Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。
我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。
我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-30T13:44:41Z) - STaR: Bootstrapping Reasoning With Reasoning [39.45372621632046]
自己学習推論(Slf-Taught Reason:STaR)は単純なループに依存し、多くの疑問に答えるために理性を生成する。
結果,STaRは最終回答を直接予測するモデルと比較して,複数のデータセットのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-03-28T03:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。