Fugu-MT 論文翻訳(概要): Boosting Deductive Reasoning with Step Signals In RLHF

論文の概要: Boosting Deductive Reasoning with Step Signals In RLHF

arxiv url: http://arxiv.org/abs/2410.09528v1
Date: Thu, 24 Oct 2024 09:36:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 13:55:04.915865
Title: Boosting Deductive Reasoning with Step Signals In RLHF
Title（参考訳）: RLHFにおけるステップ信号による導出推論の高速化
Authors: Jialian Li, Yipin Zhang, Wei Shen, Yuzi Yan, Jian Xie, Dong Yan,
Abstract要約: 我々は,帰納的推論データのためのMulti-step Deduction (MuseD) という自動手法を開発した。 MuseDは、マルチステップ推論のためのトレーニングとテストデータセットの作成を可能にしました。トレーニングデータでは、ドメイン内推論タスクのいずれにおいても、論理的能力が大幅に向上した。
参考スコア（独自算出の注目度）: 15.441793744822457
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Logical reasoning is a crucial task for Large Language Models (LLMs), enabling them to tackle complex problems. Among reasoning tasks, multi-step reasoning poses a particular challenge. Grounded in the theory of formal logic, we have developed an automated method, Multi-step Deduction (MuseD), for deductive reasoning data. MuseD has allowed us to create training and testing datasets for multi-step reasoning. Our generation method enables control over the complexity of the generated instructions, facilitating training and evaluation of models across different difficulty levels. Through RLHF training, our training data has demonstrated significant improvements in logical capabilities for both in-domain of out-of-domain reasoning tasks. Additionally, we have conducted tests to assess the multi-step reasoning abilities of various models.
Abstract（参考訳）: 論理的推論は、LLM(Large Language Models)にとって重要なタスクであり、複雑な問題に対処することができる。推論タスクの中で、多段階推論は特定の課題を引き起こす。形式論理理論を基礎として、帰納的推論データのための多段階推論(MuseD)という自動手法を開発した。 MuseDは、マルチステップ推論のためのトレーニングとテストデータセットの作成を可能にしました。我々の生成方法は,生成した命令の複雑さを制御し,異なる難易度におけるモデルのトレーニングと評価を容易にする。 RLHFトレーニングを通じて、我々のトレーニングデータにより、ドメイン内推論タスクとドメイン外推論タスクの両方の論理能力が大幅に改善された。さらに,各種モデルの多段階推論能力の評価試験を行った。

関連論文リスト

VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning [69.44871115752055]
本稿では,PCuRL(Progressive Curriculum Reinforcement Learning)フレームワークを用いて学習した高度なマルチモーダル推論モデルを提案する。 PCuRLは、難易度が徐々に増大するタスクを通じてモデルを体系的にガイドし、多様なマルチモーダルコンテキストにおける推論能力を大幅に向上させる。本フレームワークは,(1)連続するRLトレーニング段階におけるトレーニング難度を動的に調整するオンライン難易度重み付け機構,(2)タスク複雑度に応じて推論経路長を適応的に調整する動的長報奨機構,の2つの重要なイノベーションを紹介する。
論文参考訳（メタデータ） (2025-07-30T12:23:21Z)
Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2025-05-26T07:58:17Z)
Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models [27.142703756752997]
数学的推論タスクにおける命令追従評価のためのベンチマークであるMathIFを紹介する。我々の実証分析では、推論能力のスケールアップと制御可能性の維持の間に一貫した緊張関係が明らかになっている。簡単な介入であっても、性能を推論するコストはかかるものの、部分的に服従を回復できることが示される。
論文参考訳（メタデータ） (2025-05-20T18:18:01Z)
Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文参考訳（メタデータ） (2025-04-04T04:04:56Z)
Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning [23.99454995087634]
大規模推論モデルにおけるルールベース強化学習の可能性について検討する。合成論理パズルは, 制御可能な複雑性と簡単な解答検証により, 学習データとして用いられる。我々の7Bモデルは、論理コーパスにはない、リフレクション、検証、要約のような高度な推論スキルを発達させる。
論文参考訳（メタデータ） (2025-02-20T17:49:26Z)
Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。 LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文参考訳（メタデータ） (2024-11-21T18:59:55Z)
SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation [14.786100203787194]
大規模な言語モデルは、単純なコード生成タスクでは例外的なパフォーマンスを示しますが、複雑な問題に対処する上での課題に直面します。本稿では,高品質な中間推論経路を自律的に生成するモデルであるSRA-MCTSを提案する。我々の手法は、追加の監督を必要とせず、モデル自体を通して完全に機能する。
論文参考訳（メタデータ） (2024-11-17T12:31:04Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
The Role of Deductive and Inductive Reasoning in Large Language Models [35.43513487137371]
大規模言語モデル(LLM)は人工知能、特に推論タスクにおいて大きな進歩を遂げている。本稿では, 帰納的推論と帰納的推論を動的に統合することにより, LLM推論を強化するDID法を提案する。以上の結果から,DIDはLLMにおける推論のための,より堅牢で認知に整合した枠組みを提供する可能性が示唆された。
論文参考訳（メタデータ） (2024-10-03T18:30:47Z)
Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data [53.433309883370974]
本研究では,大規模言語モデルの推論能力を高めるための学習信号としてグラフベースの合成推論データを使用することの可能性と限界について検討する。 2つの確立された自然言語推論タスクにおいて,合成グラフに基づく推論データによる教師付き微調整が,他の標準評価ベンチマークでの有効性を損なうことなく,LLMの推論性能を効果的に向上することを示した。
論文参考訳（メタデータ） (2024-09-19T03:39:09Z)
Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文参考訳（メタデータ） (2024-02-01T15:18:33Z)
Deductive Beam Search: Decoding Deducible Rationale for Chain-of-Thought Reasoning [10.86233584217013]
従来の手法では中間段階の推論エラーに対処できず、累積誤差が発生する。本稿では,大規模言語モデルのステップワイド・ビームサーチとチェーン・オブ・シント推論をシームレスに統合する,導出ビームサーチ(DBS)を提案する。提案手法は検証器をデプロイし,推論ステップとその前提の再現性を検証し,エラーの蓄積を軽減する。
論文参考訳（メタデータ） (2024-01-31T09:16:35Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)
Disentangling Reasoning Capabilities from Language Models with Compositional Reasoning Transformers [72.04044221898059]
ReasonFormerは、人間のモジュール的および構成的推論プロセスを反映するための統一的な推論フレームワークである。表現モジュール(自動思考)と推論モジュール(制御思考)は、異なるレベルの認知を捉えるために切り離される。統一された推論フレームワークは、単一のモデルで複数のタスクを解決し、エンドツーエンドでトレーニングされ、推論される。
論文参考訳（メタデータ） (2022-10-20T13:39:55Z)
Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2022-08-30T13:44:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。