論文の概要: DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization
- arxiv url: http://arxiv.org/abs/2508.14460v1
- Date: Wed, 20 Aug 2025 06:31:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.359888
- Title: DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization
- Title(参考訳): DuPO:デュアル優先度最適化による信頼性LLM自己検証の実現
- Authors: Shuaijie She, Yu Bao, Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Shujian Huang, Shanbo Cheng, Lu Lu, Yuxuan Wang,
- Abstract要約: アノテーションのないフィードバックを生成するデュアルラーニングベースの選好最適化フレームワークであるDuPOを提案する。
具体的には、DuPOはプリミティブタスクの入力を未知のコンポーネントに分解し、その2つのタスクを構築して未知の部分を再構築する。
756方向の平均翻訳品質を2.13 COMETで向上し、3つのベンチマークで平均6.4ポイントの数学的推論精度を向上し、推論時間リランカとしてのパフォーマンスを9.3ポイント向上させる。
- 参考スコア(独自算出の注目度): 47.32314866162273
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present DuPO, a dual learning-based preference optimization framework that generates annotation-free feedback via a generalized duality. DuPO addresses two key limitations: Reinforcement Learning with Verifiable Rewards (RLVR)'s reliance on costly labels and applicability restricted to verifiable tasks, and traditional dual learning's restriction to strictly dual task pairs (e.g., translation and back-translation). Specifically, DuPO decomposes a primal task's input into known and unknown components, then constructs its dual task to reconstruct the unknown part using the primal output and known information (e.g., reversing math solutions to recover hidden variables), broadening applicability to non-invertible tasks. The quality of this reconstruction serves as a self-supervised reward to optimize the primal task, synergizing with LLMs' ability to instantiate both tasks via a single model. Empirically, DuPO achieves substantial gains across diverse tasks: it enhances the average translation quality by 2.13 COMET over 756 directions, boosts the mathematical reasoning accuracy by an average of 6.4 points on three challenge benchmarks, and enhances performance by 9.3 points as an inference-time reranker (trading computation for accuracy). These results position DuPO as a scalable, general, and annotation-free paradigm for LLM optimization.
- Abstract(参考訳): 我々は、一般化された双対性を通してアノテーションのないフィードバックを生成するデュアルラーニングベースの選好最適化フレームワークであるDuPOを提案する。
DuPOは2つの重要な制限に対処する: Reinforcement Learning with Verifiable Rewards(RLVR)のコストの高いラベルと適用性への依存は検証可能なタスクに限定され、従来の二重学習は厳密な2つのタスクペア(例えば、翻訳と後方翻訳)に制限される。
具体的には、DuPOはプリミティブタスクの入力を未知のコンポーネントに分解し、その2つのタスクを構築して、プリミティブ出力と既知の情報(例えば、隠れ変数を復元する数学の解を逆転する)を用いて未知の部分を再構築し、非可逆タスクに適用性を広げる。
この再構成の質は、プリミティブタスクを最適化するための自己指導型報酬として機能し、LLMが両方のタスクを1つのモデルでインスタンス化する能力と相乗効果を持つ。
経験的に、DuPOは、平均翻訳品質を756方向平均2.13 COMETで向上し、3つのベンチマークで平均6.4ポイントの数学的推論精度を向上し、推論時間リランカとして9.3ポイントの性能を向上する(精度のトレーディング計算)。
これらの結果は、DuPOをLLM最適化のためのスケーラブルで汎用的でアノテーションのないパラダイムとして位置づけている。
関連論文リスト
- Omni-DPO: A Dual-Perspective Paradigm for Dynamic Preference Learning of LLMs [28.41899655478021]
Omni-DPOは、各選好ペアの固有品質とそれらのペア上でのモデルの進化性能を考慮に入れた双対パースペクティブ最適化フレームワークである。
様々なモデルとベンチマークの実験結果から,Omni-DPOの優位性と一般化能力が示された。
論文 参考訳(メタデータ) (2025-06-11T17:58:05Z) - MDPO: Multi-Granularity Direct Preference Optimization for Mathematical Reasoning [0.0]
大規模言語モデル(LLM)の数学的推論を最適化するMDPO(Multi-Granularity Direct Preference Optimization)法を提案する。
我々はオープンソースのQwen2とLlama3で実験を行い、GSM8Kデータセットで1.7%と1.2%、MATHデータセットで2.3%と1.2%の改善を実現した。
また、MDPOトレーニングデータを構築するためのパイプラインも提供しています。
論文 参考訳(メタデータ) (2025-05-30T08:42:14Z) - Teaching Large Language Models to Maintain Contextual Faithfulness via Synthetic Tasks and Reinforcement Learning [80.27561080938747]
CANOEは、人間のアノテーションを使わずに、下流のさまざまなタスクにまたがる大きな言語モデルの忠実性の幻覚を減らすためのフレームワークである。
Dual-GRPOはルールベースの強化学習手法であり、合成された短値QAデータから得られる3つのルールベースの報酬を含む。
実験の結果、CANOEは11のタスクにまたがるLLMの忠実さを大幅に改善し、最も進歩したLLMよりも優れていた。
論文 参考訳(メタデータ) (2025-05-22T10:10:07Z) - Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs [29.735465300269993]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示してきたが、しばしば空間的推論に苦しむ。
本稿では LLM と Answer Set Programming (ASP) の反復的フィードバックにより LLM の空間推論能力を高める新しいニューラルシンボリックフレームワークを提案する。
我々は、StepGameとSparQAという2つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-11-27T18:04:05Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。