Fugu-MT 論文翻訳(概要): Reverse Thinking Makes LLMs Stronger Reasoners

論文の概要: Reverse Thinking Makes LLMs Stronger Reasoners

arxiv url: http://arxiv.org/abs/2411.19865v1
Date: Fri, 29 Nov 2024 17:27:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:08.083531
Title: Reverse Thinking Makes LLMs Stronger Reasoners
Title（参考訳）: 逆思考でLLMがより強くなる
Authors: Justin Chih-Yao Chen, Zifeng Wang, Hamid Palangi, Rujun Han, Sayna Ebrahimi, Long Le, Vincent Perot, Swaroop Mishra, Mohit Bansal, Chen-Yu Lee, Tomas Pfister,
Abstract要約: RevThinkは、データ拡張と学習目的からなるフレームワークである。 12のデータセットに対する実験では、学生モデルのゼロショットのパフォーマンスよりも平均13.53%改善されている。 RevThinkはまた、アウト・オブ・ディストリビューション・ホールドアウトデータセットへの強力な一般化を示している。
参考スコア（独自算出の注目度）: 90.42357659849215
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reverse thinking plays a crucial role in human reasoning. Humans can reason not only from a problem to a solution but also in reverse, i.e., start from the solution and reason towards the problem. This often enhances overall reasoning performance as it enables consistency checks between their forward and backward thinking. To enable Large Language Models (LLMs) to perform reverse thinking, we introduce Reverse-Enhanced Thinking (RevThink), a framework composed of data augmentation and learning objectives. In RevThink, we augment the dataset by collecting structured forward-backward reasoning from a teacher model, consisting of: (1) the original question, (2) forward reasoning, (3) backward question, and (4) backward reasoning. We then employ three objectives to train a smaller student model in a multi-task learning fashion: (a) generate forward reasoning from a question, (b) generate a backward question from a question, and (c) generate backward reasoning from the backward question. Experiments across 12 datasets covering commonsense, math, and logical reasoning show an average 13.53% improvement over the student model's zero-shot performance and a 6.84% improvement over the strongest knowledge distillation baselines. Moreover, our method demonstrates sample efficiency -- using only 10% of the correct forward reasoning from the training data, it outperforms a standard fine-tuning method trained on 10x more forward reasoning. RevThink also exhibits strong generalization to out-of-distribution held-out datasets.
Abstract（参考訳）: 逆思考は人間の推論において重要な役割を担っている。人間は、問題から解までだけでなく、逆、すなわち解から始まり、問題への理性も推論できる。これにより、前方思考と後方思考の整合性チェックを可能にするため、全体的な推論性能が向上することが多い。大規模言語モデル(LLM)が逆思考を実現するために,データ拡張と学習目的からなるフレームワークである逆拡張思考(RevThink)を導入する。 RevThinkでは,(1)本来の質問,(2)前向きの推論,(3)後向きの推論,(4)後向きの推論からなる教師モデルから,構造化された前向きの推論を収集することにより,データセットを増強する。次に、3つの目標を用いて、より小さな学生モデルをマルチタスク学習方式で訓練する。 a) 質問から前方推論を生成する (b)質問から後方質問を生成し、 (c) 後方質問から後方推論を生成する。コモンセンス、数学、論理的推論を含む12のデータセットに対する実験は、学生モデルのゼロショット性能よりも平均13.53%改善し、最も強い知識蒸留ベースラインよりも6.84%改善したことを示している。さらに,本手法は,トレーニングデータの正しい前向き推論の10%のみを用いて,サンプル効率を実証する。 RevThinkはまた、アウト・オブ・ディストリビューション・ホールドアウトデータセットへの強力な一般化を示している。

関連論文リスト

From Sufficiency to Reflection: Reinforcement-Guided Thinking Quality in Retrieval-Augmented Reasoning for LLMs [13.410543801811992]
本稿では既存のRAG推論モデルを分析し,3つの障害パターンを同定する。本稿では,思考検索と多次元報酬システムを用いた新しいフレームワークTIRESRAG-R1を提案する。 4つのマルチホップQAデータセットの実験により、TIRESRAG-R1はRAG法よりも優れており、シングルホップタスクに適していることが示された。
論文参考訳（メタデータ） (2025-07-30T14:29:44Z)
Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
NaturalThoughts: Selecting and Distilling Reasoning Traces for General Reasoning Tasks [65.70224757972068]
本研究では,NaturalReasoningからの質問のプールに基づいて,強力な教師モデルから推論トレースを選択する。データサイズをランダムサンプリングでスケールアップすることは、安定したパフォーマンス向上を伴う強力なベースラインであることに気付きました。より多様な推論戦略を必要とする難しい事例を選択することは、教師モデルの推論スキルを伝達するよりサンプル効率が高いことが判明した。
論文参考訳（メタデータ） (2025-07-02T17:30:24Z)
Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt [74.35891434097053]
RLLM(Reasoning Large Language Models)は、複雑なタスクにおいて素晴らしいパフォーマンスを示す。彼らはしばしば過度に考え、正しい答えに達した後も不必要な推論ステップを実行します。本稿では,自己疑念の観点から,過剰思考を定量的に分析する。本稿では,入力問題に対するモデルの過度信頼度を低減するための,シンプルで効果的なプロンプト手法を提案する。
論文参考訳（メタデータ） (2025-05-29T14:30:02Z)
CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。 1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文参考訳（メタデータ） (2025-05-28T06:24:45Z)
Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2025-05-26T07:58:17Z)
Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [45.33952788910874]
TONは視覚言語モデルの2段階のトレーニング戦略である。選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。 TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文参考訳（メタデータ） (2025-05-22T16:13:29Z)
SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文参考訳（メタデータ） (2025-04-07T02:42:07Z)
Retro-Search: Exploring Untaken Paths for Deeper and Efficient Reasoning [84.2749507577386]
MCTSにインスパイアされた検索アルゴリズムであるRetro-Searchを導入し,大規模モデルから高品質な推論経路を抽出する。 Retro-Searchは、より良い、しかし短いトレースを見つけるための推論パスをふりかえりに修正する。当社のアプローチでは,モデルが独自のRetro-Search-edトレースに基づいて微調整される自己改善と,弱いから強い改善の2つのユースケースを実現しています。
論文参考訳（メタデータ） (2025-04-06T06:23:27Z)
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs [28.565225092457897]
強化学習は、検証可能なタスクにおける言語モデルにおける自己改善を促進することができる。また,Qwen-2.5-3BがLlama-3.2-3Bを超えることが確認された。我々の研究は、Qwenが自然にこれらの推論行動を示すのに対して、Llamaはこれらを欠いていることを明らかにしている。
論文参考訳（メタデータ） (2025-03-03T08:46:22Z)
Evaluating Social Biases in LLM Reasoning [19.824838766883534]
本稿では,DeepSeek-R1 の 8B と 32B の変種を,BBQ データセット上の命令調整版と比較した。我々の知る限りでは、この実証的研究は、LLM推論におけるバイアス問題を初めて評価するものである。
論文参考訳（メタデータ） (2025-02-21T10:16:07Z)
Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文参考訳（メタデータ） (2024-10-30T14:45:00Z)
Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文参考訳（メタデータ） (2024-10-21T17:00:06Z)
Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths [69.39559168050923]
本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
論文参考訳（メタデータ） (2024-10-07T06:37:25Z)
Distilling Reasoning Ability from Large Language Models with Adaptive Thinking [54.047761094420174]
思考の微調整(cot-finetuning)の連鎖は、小さな言語モデル(SLM)を特定のタスクに対するパフォーマンス向上の推論能力で実現することを目的としている。既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。理性よりも先に回答を生成するための頑健な後思考機構を提案する。
論文参考訳（メタデータ） (2024-04-14T07:19:27Z)
Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward Reasoning in Math Word Problems [17.80128896525717]
後向きの推論は比較的未調査です後方推論は前方推論の「逆」と見なすことができます性能改善のための3つの異なる前方推論戦略のバリエーションを提案する。
論文参考訳（メタデータ） (2023-10-03T12:03:06Z)
Forward-Backward Reasoning in Large Language Models for Mathematical Verification [65.9495774606273]
自己整合性(Self-Consistency)は、さまざまな推論チェーンの回答をサンプリングし、多数決によって最終回答を選択する。候補解の検証に後方推論を導入する。検証のための FOrward と BAckward Reasoning は最先端の性能を達成する。
論文参考訳（メタデータ） (2023-08-15T13:19:59Z)
REFINER: Reasoning Feedback on Intermediate Representations [47.36251998678097]
中間推論を生成するための言語モデルを微調整するフレームワークであるREFINERを紹介する。 REFINERは、推論に対する自動フィードバックを提供する批評家モデルと対話することで機能する。経験的評価は、同等のスケールのベースラインLMよりも大幅に改善された。
論文参考訳（メタデータ） (2023-04-04T15:57:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。