論文の概要: RLearner-LLM: Balancing Logical Grounding and Fluency in Large Language Models via Hybrid Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2605.04539v3
- Date: Tue, 12 May 2026 05:46:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.637073
- Title: RLearner-LLM: Balancing Logical Grounding and Fluency in Large Language Models via Hybrid Direct Preference Optimization
- Title(参考訳): RLearner-LLM:Hybrid Direct Preference Optimizationによる大規模言語モデルにおける論理的グラウンドと周波数のバランス
- Authors: Qiming Bao, Juho Leinonen, Paul Denny, Michael J. Witbrock,
- Abstract要約: ハイブリッドDPOを用いたRLearner-LLMを提案する。
RLearner-LLMはSFTよりも最大6倍NLI改善する。
Gemma 4 E4B-itでは、Hybrid-DPOは5つのドメインのうち4つのNLIを持ち上げる。
- 参考スコア(独自算出の注目度): 5.0009109610311855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO), the efficient alternative to PPO-based RLHF, falls short on knowledge-intensive generation: standard preference signals from human annotators or LLM judges exhibit a systematic verbosity bias that rewards fluency over logical correctness. This blindspot leaves a logical alignment gap -- SFT models reach NLI entailment of only 0.05-0.22 despite producing fluent text. We propose RLearner-LLM with Hybrid-DPO: an automated preference pipeline that fuses a DeBERTa-v3 NLI signal with a verifier LLM score, removing human annotation while overcoming the "alignment tax" of single-signal optimization. Evaluated across five academic domains (Biology, Medicine, Law) with three base architectures (LLaMA-2-13B, Qwen3-8B, Gemma 4 E4B-it), RLearner-LLM yields up to 6x NLI improvement over SFT, with NLI gains in 11 of 15 cells and consistent answer-coverage gains. On Gemma 4 E4B-it (4.5B effective params), Hybrid-DPO lifts NLI in four of five domains (+11.9% to +2.4x) with faster inference across all five, scaling down to compact base models without losing the alignment-tax mitigation. Our Qwen3-8B RLearner-LLM wins 95% of pairwise comparisons against its own SFT baseline; GPT-4o-mini in turn wins 95% against our concise output -- alongside the 69% win the same judge gives a verbose SFT over our DPO model, this replicates verbosity bias on a frontier comparator and motivates logic-aware metrics (NLI, ACR) over LLM-as-a-judge for knowledge-intensive generation.
- Abstract(参考訳): 直接選好最適化(DPO)は、PPOベースのRLHFの効率的な代替手段であり、知識集約的な生成に乏しく、人間のアノテータやLLMの判断による標準的な選好信号は、論理的正しさよりも流線型性に報いる体系的な冗長性バイアスを示す。
この盲点は論理的アライメントのギャップを残している -- SFTモデルは、流動的なテキストを生成するにもかかわらず、わずか0.05-0.22のNLIエンターメントに到達している。
RLearner-LLM with Hybrid-DPO – DeBERTa-v3 NLI信号と検証LDMスコアとを融合し、単一信号最適化の「アライメント税」を克服しつつ、人間のアノテーションを除去する自動優先パイプラインを提案する。
LLaMA-2-13B、Qwen3-8B、Gemma 4 E4B-it、RLearner-LLMの5つの学術領域(生物学、医学、法学)で評価され、SFTよりも最大6倍のNLI改善が達成され、NLIは15細胞中11細胞で増加し、一貫した解答率が向上した。
Gemma 4 E4B-it (4.5B effective params) では、Hybrid-DPOは5つのドメインのうち4つのドメイン(+11.9%から+2.4x)でNLIを持ち上げる。
我々のQwen3-8B RLearner-LLMは、自身のSFTベースラインに対するペアワイズ比較の95%を勝ち取り、GPT-4o-miniは、私たちの簡潔なアウトプットに対して95%を勝ち取り、同じ判断の69%の勝利は、私たちのDPOモデルに対して冗長なSFTを与え、これはフロンティアコンパレータ上で冗長性バイアスを再現し、LLM-as-a-judgeよりもロジック認識メトリクス(NLI、ACR)を動機付けます。
関連論文リスト
- SFT-then-RL Outperforms Mixed-Policy Methods for LLM Reasoning [28.61073266521457]
DeepSpeedのCPUオフロードバグは、勾配の蓄積中に静かに中間のマイクロバッチをドロップする。
OpenRLHFの損失集約バグは、ミスマッチ当たりの損失を誤って重み付けする。
わずか50RLの切り離された変種は、FLOPを減らしながら、数学ベンチマークで混合ポリシー法より優れている。
論文 参考訳(メタデータ) (2026-04-26T14:53:48Z) - JoyAI-LLM Flash: Advancing Mid-Scale LLMs with Token Efficiency [56.46698214215968]
JoyAI-LLM Flashは、強力なパフォーマンスとトークン効率のトレードオフを再定義するために設計された、効率的なMixture-of-Experts (MoE)言語モデルである。
JoyAI-LLM Flashは20兆トークンの巨大なコーパスで事前トレーニングされており、厳格なポストトレーニングパイプラインを通じてさらに最適化されている。
論文 参考訳(メタデータ) (2026-04-03T13:52:38Z) - REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - UniAPL: A Unified Adversarial Preference Learning Framework for Instruct-Following [12.924923059340395]
トレーニング後のアライメントは基本的には、参照学習の統一的な問題である、と我々は主張する。
UniAPLは、SFTと嗜好データの混合バッチから共同で学習する、単一段階の統合トレーニング目標を実装している。
論文 参考訳(メタデータ) (2025-09-29T17:53:09Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Weighted-Reward Preference Optimization for Implicit Model Fusion [35.57286356489511]
提案手法は,ソースLLMとターゲットLLM間の優先最適化を有効に活用する暗黙融合方式を提案する。
WRPOは語彙アライメントやマトリックス融合の必要性を排除し、様々なLSMに対応するために効率的にスケールすることができる。
MT-Bench、AlpacaEval-2、Arena-Hardベンチマークの実験は、WRPOが既存の知識融合法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-12-04T10:15:12Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Edinburgh Clinical NLP at SemEval-2024 Task 2: Fine-tune your model unless you have access to GPT-4 [10.01547158445743]
各種大規模言語モデル (LLM) を複数戦略で評価する。例えば、Chain-of-Thought, In-Context Learning, Efficient Fine-Tuning (PEFT) などである。
その結果,2つのPEFTアダプタはF1スコア(+0.0346)とLLMの一貫性(+0.152)を改善した。
3つの指標を平均して、GPT-4は0.8328との競争で1位となった。
論文 参考訳(メタデータ) (2024-03-30T22:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。