論文の概要: Exploring Chain-of-Thought Reasoning for Steerable Pluralistic Alignment
- arxiv url: http://arxiv.org/abs/2510.04045v1
- Date: Sun, 05 Oct 2025 05:39:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.419693
- Title: Exploring Chain-of-Thought Reasoning for Steerable Pluralistic Alignment
- Title(参考訳): 安定多面的アライメントのためのチェーン・オブ・ソート推論の探索
- Authors: Yunfan Zhang, Kathleen McKeown, Smaranda Muresan,
- Abstract要約: CoT(Chain-of-Thought)推論技術は、ステアブルな多元性モデルの構築に応用できる。
我々は,CoTのプロンプト,人間によるCoTの微調整,合成説明の微調整,検証可能なリワードによる強化学習など,いくつかの手法を探求する。
- 参考スコア(独自算出の注目度): 29.74044158672979
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) are typically trained to reflect a relatively uniform set of values, which limits their applicability to tasks that require understanding of nuanced human perspectives. Recent research has underscored the importance of enabling LLMs to support steerable pluralism -- the capacity to adopt a specific perspective and align generated outputs with it. In this work, we investigate whether Chain-of-Thought (CoT) reasoning techniques can be applied to building steerable pluralistic models. We explore several methods, including CoT prompting, fine-tuning on human-authored CoT, fine-tuning on synthetic explanations, and Reinforcement Learning with Verifiable Rewards (RLVR). We evaluate these approaches using the Value Kaleidoscope and OpinionQA datasets. Among the methods studied, RLVR consistently outperforms others and demonstrates strong training sample efficiency. We further analyze the generated CoT traces with respect to faithfulness and safety.
- Abstract(参考訳): 大規模言語モデル(LLM)は通常、比較的均一な値のセットを反映するように訓練される。
近年の研究では、LLMがステアブルな多重性をサポートすることの重要性が強調されている。
本研究は,階層型多元モデル構築において,CoT推論技術が適用可能であるかどうかを考察する。
我々は,CoTのプロンプト,人間によるCoTの微調整,合成説明の微調整,およびReinforcement Learning with Verifiable Rewards(RLVR)など,いくつかの手法を探索する。
本稿では,これらの手法をValue Kaleidoscope と OpinionQA データセットを用いて評価する。
研究手法のうち、RLVRは一貫して他より優れており、強力なトレーニングサンプル効率を示している。
さらに、信頼性と安全性に関して生成されたCoTトレースを解析する。
関連論文リスト
- CoT Vectors: Transferring and Probing the Reasoning Mechanisms of LLMs [33.63911145333626]
Chain-of-Thoughtプロンプトは、大規模言語モデルの推論能力を高めるための強力なアプローチとして現れています。
コンテキスト内学習や微調整といった既存の実装は、コストがかかり、非効率である。
タスク汎用多段階推論知識を符号化するコンパクト表現であるCoTベクトルを導入する。
論文 参考訳(メタデータ) (2025-10-01T06:58:23Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - Hybrid Latent Reasoning via Reinforcement Learning [51.06635386903026]
大規模言語モデル(LLM)の能力を活用した強化学習(RL)による潜時推論について検討する。
RLをベースとしたハイブリッド潜在推論手法であるハイブリッド推論ポリシー最適化(HRPO)を導入する。
HRPOで訓練されたLLMは解釈可能であり、言語横断パターンや短い完了長といった興味深い挙動を示す。
論文 参考訳(メタデータ) (2025-05-24T01:26:16Z) - Training Small Reasoning LLMs with Cognitive Preference Alignment [11.367717208838101]
より小型で強力なLCMを学習するための新しいフレームワークであるCristique-Rethink-Verify(CRV)を紹介した。
CRVは複数のLLMエージェントから構成され、それぞれに固有の能力がある。
より小さなモデルの推論能力を高めるために,認知的嗜好最適化(CogPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-14T02:03:54Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs [30.216174551427443]
大規模言語モデル(LLM)は、テキスト再ランクタスクにおいて顕著な可能性を示している。
LLMをランク付けタスクに特化するための従来の微調整手法は、しばしばモデルの汎用能力を著しく低下させる。
本稿では,CoT(Chain-of-Thought)と革新的な2段階トレーニングパイプラインを戦略的に組み合わせた手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T23:24:15Z) - Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。
具体的には、各推論ステップにおける「情報ゲイン」を定量化し、障害モードの識別を可能にする。
我々は,おもちゃの算術, GSM8K, PRM800kデータセットに関する広範な実験を通じて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-11-18T19:14:36Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。