論文の概要: Diversity-Enhanced Reasoning for Subjective Questions
- arxiv url: http://arxiv.org/abs/2507.20187v3
- Date: Wed, 01 Oct 2025 18:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.089427
- Title: Diversity-Enhanced Reasoning for Subjective Questions
- Title(参考訳): 主観的質問に対する多様性強化推論
- Authors: Yumeng Wang, Zhiyuan Fan, Jiayu Liu, Jen-tse Huang, Yi R. Fung,
- Abstract要約: 多様性を高めるトレーニングフレームワークであるMultiRole-R1は、様々な役割の観点から推論チェーンを合成する。
ドメイン内精度とドメイン外精度を14.1%と7.64%向上させ、AIME 2024のような高度な数学推論の性能も向上させる。
- 参考スコア(独自算出の注目度): 24.896059589693607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) with long chain-of-thought capabilities, optimized via reinforcement learning with verifiable rewards (RLVR), excel at objective reasoning tasks like mathematical problem solving and code generation. However, RLVR is known for degrading generation diversity, which causes LRMs to fall short on subjective reasoning that has multiple answers depending on different role perspectives. While recent studies recognize the importance of diversity-enhanced training in objective reasoning, limited attention has been given to subjective tasks. In this paper, we find that subjective reasoning can be improved by introducing perspective diversity and token-level diversity, with the former one providing a coherent scaffolding anchored to a real-world stakeholder group and the latter one broadening the answer search space. We propose MultiRole-R1, a diversity-enhanced training framework featuring an unsupervised data construction pipeline that synthesizes reasoning chains incorporating various role perspectives. It also employs reinforcement learning via Group Relative Policy Optimization with reward shaping, taking diversity as a reward signal in addition to verifiable reward. Training on subjective tasks solely, MultiRole-R1 increases the in-domain and out-of-domain accuracy by 14.1% and 7.64%, and even enhances the performance on advanced math reasoning such as AIME 2024. We further show that diversity is a more consistent indicator of accuracy than reasoning length.
- Abstract(参考訳): 大きな推論モデル(LRM)は、長いチェーンオブ思想能力を持ち、検証可能な報酬(RLVR)による強化学習によって最適化され、数学的問題解決やコード生成といった客観的推論タスクに優れています。
しかし、RLVRは世代多様性を低下させることで知られており、様々な役割の観点で複数の答えを持つ主観的推論においてLRMが不足する原因となっている。
近年の研究では、客観的推論における多様性強化トレーニングの重要性が認識されているが、主観的タスクには限定的な注意が向けられている。
本稿では,視点の多様性とトークンレベルの多様性を導入することにより,主観的推論が向上し,前者は現実世界の利害関係者グループに固定された一貫性のある足場を提供し,後者は回答検索空間を広げることを見出した。
多様な役割視点を取り入れた推論チェーンを合成する教師なしデータ構築パイプラインを特徴とする多目的学習フレームワークであるMultiRole-R1を提案する。
また、グループ相対政策最適化(Group Relative Policy Optimization)を通じて強化学習を行い、報酬形成を行い、多様性を報奨信号として、検証可能な報奨信号として利用している。
主観的なタスクのみを訓練することで、MultiRole-R1はドメイン内精度とドメイン外精度を14.1%と7.64%向上させ、AIME 2024のような高度な数学推論の性能を向上させる。
さらに、多様性は長さの推論よりも精度の一貫性のある指標であることを示す。
関連論文リスト
- VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning [69.44871115752055]
本稿では,PCuRL(Progressive Curriculum Reinforcement Learning)フレームワークを用いて学習した高度なマルチモーダル推論モデルを提案する。
PCuRLは、難易度が徐々に増大するタスクを通じてモデルを体系的にガイドし、多様なマルチモーダルコンテキストにおける推論能力を大幅に向上させる。
本フレームワークは,(1)連続するRLトレーニング段階におけるトレーニング難度を動的に調整するオンライン難易度重み付け機構,(2)タスク複雑度に応じて推論経路長を適応的に調整する動的長報奨機構,の2つの重要なイノベーションを紹介する。
論文 参考訳(メタデータ) (2025-07-30T12:23:21Z) - CogDual: Enhancing Dual Cognition of LLMs via Reinforcement Learning with Implicit Rule-Based Rewards [53.36917093757101]
ロールプレイング言語エージェント (RPLA) は,Large Language Models (LLM) に対する重要な適用方向として登場した。
テキスト認識対応推論パラダイムを採用した新しいRPLAであるtextbfCogDualを紹介する。
外部状況認識と内部自己認識を共同でモデル化することにより、CagDualは文字整合性と文脈整合性を改善した応答を生成する。
論文 参考訳(メタデータ) (2025-07-23T02:26:33Z) - PeRL: Permutation-Enhanced Reinforcement Learning for Interleaved Vision-Language Reasoning [50.21619363035618]
本稿では,マルチモーダルタスクのインターリーブに適した汎用強化学習手法PeRLを提案する。
空間的および位置的多様性を探索するために、様々な位置関係をシミュレートするために、画像列の置換を導入する。
実験の結果,PeRLのトレーニングモデルは,VLMベースラインを大きなマージンで,R1関連およびインターリーブしたVLMベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T18:25:56Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - Diversity-Aware Policy Optimization for Large Language Model Reasoning [30.460540027658173]
大規模言語モデルに対するRLに基づく学習における多様性の影響について検討する。
多様性を考慮したポリシー最適化手法を提案する。
本手法は4つの数学的推論ベンチマークで平均3.5パーセントの改善を実現している。
論文 参考訳(メタデータ) (2025-05-29T13:27:44Z) - RAIDEN-R1: Improving Role-awareness of LLMs via GRPO with Verifiable Reward [7.9399136525335585]
RAIDEN-R1は、VRAR(Verifiable Role-Awareness Reward)を統合した新しい強化学習フレームワークである
マルチLLMコラボレーションにより,高品質で役割対応のChain-of-Thoughtデータセットを構築した。
RAIDENベンチマークの実験では、RAIDEN-R1の優位性が示されている。
論文 参考訳(メタデータ) (2025-05-15T12:22:10Z) - Curiosity-Driven Reinforcement Learning from Human Feedback [56.45486828254951]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の好みを一致させるのに有効であるが、出力の多様性を減らすためにしばしば効果的である。
好奇心駆動型RLHF(CD-RLHF)を導入する。
テキスト要約や命令追従を含むタスクの広範な実験を通じて,CD-RLHFの有効性を実証する。
論文 参考訳(メタデータ) (2025-01-20T12:51:40Z) - Demonstration Selection for In-Context Learning via Reinforcement Learning [16.103533806505403]
Relevance-Diversity Enhanced Selection (RDES)は、多様な参照デモの選択を最適化するための革新的なアプローチである。
RDESはQ-learningのようなフレームワークとPPOベースの変種を使用して、多様性を最大化するデモを動的に識別する。
RDESは10基のベースラインに比べて性能を著しく向上することを示した。
論文 参考訳(メタデータ) (2024-12-05T08:33:52Z) - Evolution of Thought: Diverse and High-Quality Reasoning via Multi-Objective Optimization [14.346638764967357]
MLLM(Multi-modal large language model)は、複雑な推論タスクに適用されることが多い。
思考の進化 (EoT) は, 質の高い推論経路と多様な推論経路の両方を育むために提案される。
我々はEoTが他の競争ベースラインよりも優れた推論性能と効率を達成することを示す。
論文 参考訳(メタデータ) (2024-11-24T14:59:30Z) - DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints [68.82294911302579]
DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。
実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2024-05-29T12:12:09Z) - Choosing the Best of Both Worlds: Diverse and Novel Recommendations
through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。
SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。
実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文 参考訳(メタデータ) (2021-10-28T13:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。