論文の概要: CLARity: Reasoning Consistency Alone Can Teach Reinforced Experts
- arxiv url: http://arxiv.org/abs/2510.09278v1
- Date: Fri, 10 Oct 2025 11:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.798148
- Title: CLARity: Reasoning Consistency Alone Can Teach Reinforced Experts
- Title(参考訳): CLARity: 強化されたエキスパートを学べる一貫性アローンの推論
- Authors: Jiuheng Lin, Cong Jiang, Zirui Wu, Jiarui Sun, Yansong Feng,
- Abstract要約: 少ないデータ領域における訓練専門家のLSMは困難であり、しばしばMCQ(Multi-choice Question)に依存している。
大規模プロセスリワードモデル(PRM)のような既存の推論を監督するソリューションは、違法に高価である。
小型汎用LLMのみを用いて推論品質を向上させる費用対効果の高いRLフレームワークであるCLARityを提案する。
- 参考スコア(独自算出の注目度): 20.606939295163752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training expert LLMs in domains with scarce data is difficult, often relying on multiple-choice questions (MCQs). However, standard outcome-based reinforcement learning (RL) on MCQs is risky. While it may improve accuracy, we observe it often degrades reasoning quality such as logical consistency. Existing solutions to supervise reasoning, such as large-scale Process Reward Models (PRMs), are prohibitively expensive. To address this, we propose CLARity, a cost-effective RL framework that enhances reasoning quality using only a small, general-purpose LLM. CLARity integrates a consistency-aware reward mechanism with a 2-stage refine-then-monitor training pipeline to enhance reasoning consistency, and a dynamic data reformulation strategy to to better exploit limited data. Experiments demonstrate that CLARity improves response consistency by 16.5% and accuracy by 7.5% over baselines. Human evaluations further confirm holistic improvements in coherence and professionalism. Thus, CLARity offers a generalizable solution that enables smaller models to effectively guide expert models by reasoning consistency.Our code is open sourced at: https://github.com/Infinite-set/CLARity
- Abstract(参考訳): 少ないデータを持つドメインでの訓練専門家のLSMは困難であり、しばしばマルチチョイス質問(MCQ)に依存している。
しかし、MCQにおける標準結果に基づく強化学習(RL)はリスクが高い。
精度は向上するかもしれないが、論理的整合性などの推論品質を劣化させることが多い。
大規模プロセスリワードモデル(PRM)のような既存の推論を監督するソリューションは、違法に高価である。
これを解決するために,小型汎用LLMのみを用いて推論品質を向上させる費用効率の高いRLフレームワークCLARityを提案する。
CLARityは、一貫性を意識した報酬メカニズムと、2段階の精巧なモニタリングパイプラインを統合して推論整合性を強化し、制限されたデータをより有効活用するための動的データ修正戦略を提供する。
実験の結果、CLARityは応答一貫性を16.5%改善し、精度を7.5%向上した。
人間の評価は、コヒーレンスとプロフェッショナリズムの全体的な改善をさらに確認する。
したがって、CLARityは、一貫性を推論することで、より小さなモデルで専門家モデルを効果的にガイドできる一般化可能なソリューションを提供する。
関連論文リスト
- Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models [56.055015597319674]
検証可能な報酬(RLVR)を用いた強化学習は,大規模言語モデル(LLM)の推論能力の向上に有効である
近年の自己回帰法は LLM の推論能力を解き放つためのラベルフリーな代替手段について検討している。
我々は、他の視点から補完的な監督を求めることにより、トレーニングの安定性を向上させる新しい自己監督型RLフレームワークであるtextitCo-rewardingを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:09:14Z) - Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs [35.27561531876348]
本稿では,LLVRを用いた強化学習が大規模言語モデル(LLM)に及ぼす影響を体系的に検討する。
RLVRは数学的タスクとコーディングタスクの両方の推論境界を拡張可能であることを示す。
本稿では,RLVRのインセンティブメカニズムを説明する理論的枠組みについて述べる。
論文 参考訳(メタデータ) (2025-06-17T07:06:56Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - CREAM: Consistency Regularized Self-Rewarding Language Models [34.325289477993586]
自己回帰型大規模言語モデル (LLM) は, 優先データに対する人間のアノテーションを必要とせずに, LLM-as-a-Judge を用いてアライメント性能を向上させることに成功した。
しかし、報酬とランキングの正確性は保証されていないため、精度の高い報酬と高品質な選好データを保証するのに不可欠である。
本稿では,各イテレーション間の報酬の整合性を活用し,自己回帰訓練を規則化する一貫性正規化sElf-rewarding lAnguage Model(CREAM)を提案する。
論文 参考訳(メタデータ) (2024-10-16T16:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。