論文の概要: Large Language Models Reasoning Abilities Under Non-Ideal Conditions After RL-Fine-Tuning
- arxiv url: http://arxiv.org/abs/2508.04848v1
- Date: Wed, 06 Aug 2025 19:51:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.633862
- Title: Large Language Models Reasoning Abilities Under Non-Ideal Conditions After RL-Fine-Tuning
- Title(参考訳): RL-Fine-Tuning後の非初期条件下での能力を考慮した大規模言語モデル
- Authors: Chang Tian, Matthew B. Blaschko, Mingzhe Xing, Xiuxing Li, Yinliang Yue, Marie-Francine Moens,
- Abstract要約: 脳科学的な知見によって導かれる新たな研究の方向性を紹介する。
本稿では,3つの大規模言語モデル (LLM) と,RL(Reinforcement Learning) を用いた最先端の大規模視覚言語モデル (LVLM) を代表的なポリシー勾配アルゴリズムを用いて微調整する。
その結果、RLファインチューニングは、理想的な設定下でのベースライン推論を改善するが、3つの非理想シナリオ全てで性能は著しく低下することがわかった。
- 参考スコア(独自算出の注目度): 33.27410930782468
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning (RL) has become a key technique for enhancing the reasoning abilities of large language models (LLMs), with policy-gradient algorithms dominating the post-training stage because of their efficiency and effectiveness. However, most existing benchmarks evaluate large-language-model reasoning under idealized settings, overlooking performance in realistic, non-ideal scenarios. We identify three representative non-ideal scenarios with practical relevance: summary inference, fine-grained noise suppression, and contextual filtering. We introduce a new research direction guided by brain-science findings that human reasoning remains reliable under imperfect inputs. We formally define and evaluate these challenging scenarios. We fine-tune three LLMs and a state-of-the-art large vision-language model (LVLM) using RL with a representative policy-gradient algorithm and then test their performance on eight public datasets. Our results reveal that while RL fine-tuning improves baseline reasoning under idealized settings, performance declines significantly across all three non-ideal scenarios, exposing critical limitations in advanced reasoning capabilities. Although we propose a scenario-specific remediation method, our results suggest current methods leave these reasoning deficits largely unresolved. This work highlights that the reasoning abilities of large models are often overstated and underscores the importance of evaluating models under non-ideal scenarios. The code and data will be released at XXXX.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) は, 大規模言語モデル(LLM)の推論能力を高める重要な手法となっている。
しかし、既存のベンチマークのほとんどは、理想化された設定の下で大規模言語モデル推論を評価し、現実的で非理想的なシナリオのパフォーマンスを見越している。
我々は,要約推論,きめ細かいノイズ抑圧,文脈的フィルタリングの3つの非理想的シナリオを実用的関連性で識別する。
脳科学的な知見によって導かれる新たな研究の方向性を紹介する。
我々はこれらの困難なシナリオを正式に定義し、評価する。
代表的なポリシー勾配アルゴリズムを用いて3つのLLMと最先端の大規模視覚言語モデル(LVLM)を微調整し、8つの公開データセット上でその性能をテストする。
その結果、RLファインチューニングは、理想的な設定下でのベースライン推論を改善するが、3つの非理想シナリオ全てで性能は大幅に低下し、高度な推論能力の限界が明らかになることがわかった。
本研究はシナリオ特異的修復法を提案するが,現状の手法はこれらの理由付け不足をほとんど未解決のままにしておくことを示唆している。
この研究は、大規模モデルの推論能力がしばしば過大評価され、非理想的なシナリオ下でモデルを評価することの重要性を強調している。
コードとデータはXXXXでリリースされる。
関連論文リスト
- Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Alignment as Distribution Learning: Your Preference Model is Explicitly a Language Model [12.063078727764045]
人間のフィードバックからの強化学習によるアライメントは理論的正当性に欠け、決定論的解のインセンティブを与える。
本稿では, 優先最大推定, 優先蒸留, 逆KL最小化の3つの基本学習目標を提案する。
我々は、我々の分布学習フレームワーク、特に嗜好蒸留が、RLHFとDPOのパフォーマンスを一貫して上回るか、あるいは一致しているかを実証的に示す。
論文 参考訳(メタデータ) (2025-06-02T10:36:31Z) - ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models [89.37819814048288]
本稿では,KL分散制御,参照ポリシ,多様なタスクスイートを取り入れた新しいトレーニング手法であるProRLを紹介する。
我々の経験的分析により、RL学習モデルは、広範囲のpass@k評価において、ベースリセットモデルよりも一貫して優れていたことが明らかとなった。
これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件について、新たな洞察を与える。
論文 参考訳(メタデータ) (2025-05-30T17:59:01Z) - The Limits of Preference Data for Post-Training [27.229909368242517]
この結果から,選好データは基本的に,結果に基づく最適化を著しく制限することがわかった。
我々は、この不合理性を投票理論を用いて形式化し、モデルが問合せに答える方法と、有権者が選択する候補を選択する方法との類似性を引き出す。
このことは、人間のフィードバックを必要とする領域にRLポストトレーニングの成功を拡大するために、基礎となる人間のスコアリングとアルゴリズムの革新が必要であることを示唆している。
論文 参考訳(メタデータ) (2025-05-26T13:26:15Z) - Is there Value in Reinforcement Learning? [1.534667887016089]
アクション・バリューは、一般的なReinforcement Learing(RL)の行動モデルにおいて中心的な役割を果たす。
批評家は、ポリシー・グラディエント(PG)モデルが価値ベース(VB)モデルよりも好まれるべきであると示唆していた。
論文 参考訳(メタデータ) (2025-05-07T21:50:27Z) - Do Theory of Mind Benchmarks Need Explicit Human-like Reasoning in Language Models? [14.29992535286614]
心の理論 (Theory of Mind, ToM) とは、心の状態を他人に説明できる能力である。
大規模言語モデルの最近の進歩は、ToMベンチマークで有望なパフォーマンスを示している。
これらのベンチマークは、明示的なヒューマンライクな推論プロセスを必要とするのか、それとも、代替戦略によってモデルが成功するのか?
論文 参考訳(メタデータ) (2025-04-02T12:58:42Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。