論文の概要: Multi-turn Training with Basic Human Feedback Helps Little on LLM Reasoning
- arxiv url: http://arxiv.org/abs/2510.21339v1
- Date: Fri, 24 Oct 2025 11:08:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.444603
- Title: Multi-turn Training with Basic Human Feedback Helps Little on LLM Reasoning
- Title(参考訳): 基本フィードバックによるマルチターントレーニングはLLM推論にほとんど役に立たない
- Authors: Qiang Liu, Wuganjing Song, Zhenzhou Lin, Feifan Chen, Qiaolong Cai, Chen Li, Yongduo Sui,
- Abstract要約: タスクの推論には,人間からのフィードバックによるマルチターントレーニングが必要であるかを検討する。
単ターン設定で訓練されたモデルは、単ターンおよび多ターン評価の両方に効果的に一般化する。
- 参考スコア(独自算出の注目度): 11.361171211215597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reasoning capabilities of Large Language Models (LLMs) are typically developed through the single-turn reinforcement learning, whereas real-world applications often involve multi-turn interactions with human feedback, leading to a potential mismatch between training and deployment conditions. In this work, we study whether multi-turn training with human feedback is necessary for reasoning tasks. We compare conventional single-turn training with three multi-turn strategies and reach contrary conclusions to previous research. We find that models trained in a single-turn setting generalize effectively to both single- and multi-turn evaluations, while models trained with multi-turn strategies exhibit a significant degradation in single-turn reasoning performance. These results suggest that for tasks with complete information, robust single-turn training remains more effective and reliable, as multi-turn training with basic feedback provides limited benefits and can even degrade reasoning capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力は、典型的にはシングルターン強化学習によって開発されるが、現実のアプリケーションは、しばしば人間のフィードバックとマルチターンインタラクションを伴い、トレーニングとデプロイメント条件の間に潜在的なミスマッチをもたらす。
本研究では,ヒューマンフィードバックを用いたマルチターントレーニングが,タスクの推論に必要かどうかを考察する。
従来のシングルターントレーニングを3つのマルチターン戦略と比較し、従来の研究と逆の結論に達した。
単ターン条件下で訓練されたモデルは単ターン評価と多ターン評価の両方に効果的に一般化し,マルチターン方式で訓練したモデルは単ターン推論性能を著しく低下させることがわかった。
これらの結果は、完全な情報を持つタスクでは、基本的なフィードバックによるマルチターントレーニングが限られた利益をもたらし、推論能力を低下させる可能性があるため、堅牢なシングルターントレーニングの方が効率的で信頼性が高いことを示唆している。
関連論文リスト
- VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning [69.44871115752055]
本稿では,PCuRL(Progressive Curriculum Reinforcement Learning)フレームワークを用いて学習した高度なマルチモーダル推論モデルを提案する。
PCuRLは、難易度が徐々に増大するタスクを通じてモデルを体系的にガイドし、多様なマルチモーダルコンテキストにおける推論能力を大幅に向上させる。
本フレームワークは,(1)連続するRLトレーニング段階におけるトレーニング難度を動的に調整するオンライン難易度重み付け機構,(2)タスク複雑度に応じて推論経路長を適応的に調整する動的長報奨機構,の2つの重要なイノベーションを紹介する。
論文 参考訳(メタデータ) (2025-07-30T12:23:21Z) - A Simple "Try Again" Can Elicit Multi-Turn LLM Reasoning [58.80217284841095]
マルチターン問題解決は、大規模な推論モデル(LRM)が彼らの推論を反映し、フィードバックから修正する上で非常に難しい。
既存の強化学習(RL)手法は、検証可能な報酬で1ターンのパラダイム上で大きな推論モデルを訓練する。
我々は,反復的問題解決において,最小限の単一ユーザフィードバックを利用する強化学習のためのUnary Feedback as Observation (UFO)を紹介した。
論文 参考訳(メタデータ) (2025-07-18T18:07:38Z) - Revisiting the Relationship between Adversarial and Clean Training: Why Clean Training Can Make Adversarial Training Better [1.1970409518725493]
逆行訓練(AT)は、対向的堅牢性を高める効果的な手法であるが、一般化能力の低下によるコストがかかる。
近年の研究では、清潔な訓練を敵の訓練に役立てようと試みているが、結論には矛盾がある。
そこで我々は,AT法の性能向上のためにクリーントレーニングを活用する新しいアイデアを提案する。
論文 参考訳(メタデータ) (2025-03-30T15:58:41Z) - Diving into Self-Evolving Training for Multimodal Reasoning [36.70979791148913]
自己進化的トレインは複雑な推論タスクの鍵となるアプローチとして登場した。
本稿では,強化学習のレンズによるマルチモーダル推論のための自己進化学習を再構成する。
M-STARは、様々なサイズと多様なベンチマークのモデル間で一貫したパフォーマンス向上を実現するフレームワークである。
論文 参考訳(メタデータ) (2024-12-23T10:18:41Z) - How to Train Your Multi-Exit Model? Analyzing the Impact of Training Strategies [3.1836117900874825]
早期の出口は、トレーニング可能な内部分類器をバックボーンネットワークにアタッチすることで、ネットワークの前方通過が早期に終了することを可能にする。
既存のアーリーエグジット法は、一般的には、バックボーンと出口ヘッドを同時に訓練するジョイントトレーニングアプローチ、またはヘッドを別々に訓練するディスジョイントアプローチを採用する。
本稿では,早期からのトレーニングダイナミクスを分析し,トレーニング戦略の選択を導くための指標について紹介する。
論文 参考訳(メタデータ) (2024-07-19T13:56:57Z) - Learn Beyond The Answer: Training Language Models with Reflection for Mathematical Reasoning [59.98430756337374]
教師付き微調整により、様々な数学的推論タスクにおける言語モデルの問題解決能力が向上する。
本研究は,手前のトレーニング問題をより深く理解することを目的とした,新しい技術を紹介する。
本稿では,各トレーニングインスタンスに問題反映を埋め込む手法であるリフレクティブ拡張を提案する。
論文 参考訳(メタデータ) (2024-06-17T19:42:22Z) - Towards Reasoning in Large Language Models via Multi-Agent Peer Review
Collaboration [28.299379264080603]
大規模言語モデル(LLM)は、一般的な自然言語処理タスクにおいて顕著な能力を示しているが、複雑な推論タスクでは不足することが多い。
近年の研究では、自己正当性のような人間的な問題解決戦略を探求し、単一モデル推論能力の境界を推し進めている。
学術的ピアレビュープロセスをエミュレートするマルチエージェントコラボレーション戦略を導入する。
論文 参考訳(メタデータ) (2023-11-14T13:27:07Z) - Multimodal Guidance Network for Missing-Modality Inference in Content Moderation [6.933986643759809]
本稿では,学習中の知識共有を促進する新しい指導ネットワークを提案する。
提案するフレームワークは,従来のトレーニングモデルよりもはるかに優れた単一モダリティモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-09-07T02:26:55Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。