論文の概要: Diversity-Enhanced Reasoning for Subjective Questions
- arxiv url: http://arxiv.org/abs/2507.20187v1
- Date: Sun, 27 Jul 2025 09:07:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.175137
- Title: Diversity-Enhanced Reasoning for Subjective Questions
- Title(参考訳): 主観的質問に対する多様性強化推論
- Authors: Yumeng Wang, Zhiyuan Fan, Jiayu Liu, Yi R. Fung,
- Abstract要約: 主観的推論タスクの精度と多様性を改善するために,複数の役割視点を持つ多様性向上フレームワークであるMultiRole-R1を提案する。
特別に設計された報酬関数により、視点の多様性と語彙の多様性を促進することに成功した。
6つのベンチマーク実験により,MultiRole-R1の有効性と主観的推論と客観的推論の両面での一般化性を示した。
- 参考スコア(独自算出の注目度): 6.898139210272096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRM) with long chain-of-thought (CoT) capabilities have shown strong performance on objective tasks, such as math reasoning and coding. However, their effectiveness on subjective questions that may have different responses from different perspectives is still limited by a tendency towards homogeneous reasoning, introduced by the reliance on a single ground truth in supervised fine-tuning and verifiable reward in reinforcement learning. Motivated by the finding that increasing role perspectives consistently improves performance, we propose MultiRole-R1, a diversity-enhanced framework with multiple role perspectives, to improve the accuracy and diversity in subjective reasoning tasks. MultiRole-R1 features an unsupervised data construction pipeline that generates reasoning chains that incorporate diverse role perspectives. We further employ reinforcement learning via Group Relative Policy Optimization (GRPO) with reward shaping, by taking diversity as a reward signal in addition to the verifiable reward. With specially designed reward functions, we successfully promote perspective diversity and lexical diversity, uncovering a positive relation between reasoning diversity and accuracy. Our experiment on six benchmarks demonstrates MultiRole-R1's effectiveness and generalizability in enhancing both subjective and objective reasoning, showcasing the potential of diversity-enhanced training in LRMs.
- Abstract(参考訳): 長いチェーン・オブ・シークレット(CoT)機能を持つ大きな推論モデル(LRM)は、数学の推論やコーディングといった目的のタスクに強いパフォーマンスを示している。
しかし、異なる視点から異なる応答を持つ主観的質問に対するそれらの効果は、強化学習における教師付き微調整と検証可能な報酬における単一根拠の真理への依存によってもたらされる同質な推論の傾向によって依然として制限されている。
ロールパースペクティブの増大がパフォーマンスを継続的に改善することから,複数のロールパースペクティブを持つ多様性向上フレームワークであるMultiRole-R1を提案し,主観的推論タスクの精度と多様性を向上させる。
MultiRole-R1は、さまざまな役割の観点から推論チェーンを生成する教師なしのデータ構築パイプラインを備えている。
また,報奨信号に加え,報奨信号として多様性を取り入れ,報酬形成を伴うグループ相対政策最適化(GRPO)による強化学習も採用している。
特別に設計された報酬関数を用いて視点の多様性と語彙の多様性を推し進め、推論の多様性と精度の正の関係を明らかにする。
6つのベンチマーク実験により、マルチロールR1の有効性と、主観的推論と客観的推論の両面での一般化性を示し、LRMにおける多様性向上トレーニングの可能性を示した。
関連論文リスト
- VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning [69.44871115752055]
本稿では,PCuRL(Progressive Curriculum Reinforcement Learning)フレームワークを用いて学習した高度なマルチモーダル推論モデルを提案する。
PCuRLは、難易度が徐々に増大するタスクを通じてモデルを体系的にガイドし、多様なマルチモーダルコンテキストにおける推論能力を大幅に向上させる。
本フレームワークは,(1)連続するRLトレーニング段階におけるトレーニング難度を動的に調整するオンライン難易度重み付け機構,(2)タスク複雑度に応じて推論経路長を適応的に調整する動的長報奨機構,の2つの重要なイノベーションを紹介する。
論文 参考訳(メタデータ) (2025-07-30T12:23:21Z) - CogDual: Enhancing Dual Cognition of LLMs via Reinforcement Learning with Implicit Rule-Based Rewards [53.36917093757101]
ロールプレイング言語エージェント (RPLA) は,Large Language Models (LLM) に対する重要な適用方向として登場した。
テキスト認識対応推論パラダイムを採用した新しいRPLAであるtextbfCogDualを紹介する。
外部状況認識と内部自己認識を共同でモデル化することにより、CagDualは文字整合性と文脈整合性を改善した応答を生成する。
論文 参考訳(メタデータ) (2025-07-23T02:26:33Z) - PeRL: Permutation-Enhanced Reinforcement Learning for Interleaved Vision-Language Reasoning [50.21619363035618]
本稿では,マルチモーダルタスクのインターリーブに適した汎用強化学習手法PeRLを提案する。
空間的および位置的多様性を探索するために、様々な位置関係をシミュレートするために、画像列の置換を導入する。
実験の結果,PeRLのトレーニングモデルは,VLMベースラインを大きなマージンで,R1関連およびインターリーブしたVLMベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T18:25:56Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - Diversity-Aware Policy Optimization for Large Language Model Reasoning [30.460540027658173]
大規模言語モデルに対するRLに基づく学習における多様性の影響について検討する。
多様性を考慮したポリシー最適化手法を提案する。
本手法は4つの数学的推論ベンチマークで平均3.5パーセントの改善を実現している。
論文 参考訳(メタデータ) (2025-05-29T13:27:44Z) - RAIDEN-R1: Improving Role-awareness of LLMs via GRPO with Verifiable Reward [7.9399136525335585]
RAIDEN-R1は、VRAR(Verifiable Role-Awareness Reward)を統合した新しい強化学習フレームワークである
マルチLLMコラボレーションにより,高品質で役割対応のChain-of-Thoughtデータセットを構築した。
RAIDENベンチマークの実験では、RAIDEN-R1の優位性が示されている。
論文 参考訳(メタデータ) (2025-05-15T12:22:10Z) - Curiosity-Driven Reinforcement Learning from Human Feedback [56.45486828254951]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の好みを一致させるのに有効であるが、出力の多様性を減らすためにしばしば効果的である。
好奇心駆動型RLHF(CD-RLHF)を導入する。
テキスト要約や命令追従を含むタスクの広範な実験を通じて,CD-RLHFの有効性を実証する。
論文 参考訳(メタデータ) (2025-01-20T12:51:40Z) - Demonstration Selection for In-Context Learning via Reinforcement Learning [16.103533806505403]
Relevance-Diversity Enhanced Selection (RDES)は、多様な参照デモの選択を最適化するための革新的なアプローチである。
RDESはQ-learningのようなフレームワークとPPOベースの変種を使用して、多様性を最大化するデモを動的に識別する。
RDESは10基のベースラインに比べて性能を著しく向上することを示した。
論文 参考訳(メタデータ) (2024-12-05T08:33:52Z) - Evolution of Thought: Diverse and High-Quality Reasoning via Multi-Objective Optimization [14.346638764967357]
MLLM(Multi-modal large language model)は、複雑な推論タスクに適用されることが多い。
思考の進化 (EoT) は, 質の高い推論経路と多様な推論経路の両方を育むために提案される。
我々はEoTが他の競争ベースラインよりも優れた推論性能と効率を達成することを示す。
論文 参考訳(メタデータ) (2024-11-24T14:59:30Z) - DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints [68.82294911302579]
DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。
実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2024-05-29T12:12:09Z) - Choosing the Best of Both Worlds: Diverse and Novel Recommendations
through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。
SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。
実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文 参考訳(メタデータ) (2021-10-28T13:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。