論文の概要: DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization
- arxiv url: http://arxiv.org/abs/2508.14460v1
- Date: Wed, 20 Aug 2025 06:31:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.359888
- Title: DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization
- Title(参考訳): DuPO:デュアル優先度最適化による信頼性LLM自己検証の実現
- Authors: Shuaijie She, Yu Bao, Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Shujian Huang, Shanbo Cheng, Lu Lu, Yuxuan Wang,
- Abstract要約: アノテーションのないフィードバックを生成するデュアルラーニングベースの選好最適化フレームワークであるDuPOを提案する。
具体的には、DuPOはプリミティブタスクの入力を未知のコンポーネントに分解し、その2つのタスクを構築して未知の部分を再構築する。
756方向の平均翻訳品質を2.13 COMETで向上し、3つのベンチマークで平均6.4ポイントの数学的推論精度を向上し、推論時間リランカとしてのパフォーマンスを9.3ポイント向上させる。
- 参考スコア(独自算出の注目度): 47.32314866162273
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present DuPO, a dual learning-based preference optimization framework that generates annotation-free feedback via a generalized duality. DuPO addresses two key limitations: Reinforcement Learning with Verifiable Rewards (RLVR)'s reliance on costly labels and applicability restricted to verifiable tasks, and traditional dual learning's restriction to strictly dual task pairs (e.g., translation and back-translation). Specifically, DuPO decomposes a primal task's input into known and unknown components, then constructs its dual task to reconstruct the unknown part using the primal output and known information (e.g., reversing math solutions to recover hidden variables), broadening applicability to non-invertible tasks. The quality of this reconstruction serves as a self-supervised reward to optimize the primal task, synergizing with LLMs' ability to instantiate both tasks via a single model. Empirically, DuPO achieves substantial gains across diverse tasks: it enhances the average translation quality by 2.13 COMET over 756 directions, boosts the mathematical reasoning accuracy by an average of 6.4 points on three challenge benchmarks, and enhances performance by 9.3 points as an inference-time reranker (trading computation for accuracy). These results position DuPO as a scalable, general, and annotation-free paradigm for LLM optimization.
- Abstract(参考訳): 我々は、一般化された双対性を通してアノテーションのないフィードバックを生成するデュアルラーニングベースの選好最適化フレームワークであるDuPOを提案する。
DuPOは2つの重要な制限に対処する: Reinforcement Learning with Verifiable Rewards(RLVR)のコストの高いラベルと適用性への依存は検証可能なタスクに限定され、従来の二重学習は厳密な2つのタスクペア(例えば、翻訳と後方翻訳)に制限される。
具体的には、DuPOはプリミティブタスクの入力を未知のコンポーネントに分解し、その2つのタスクを構築して、プリミティブ出力と既知の情報(例えば、隠れ変数を復元する数学の解を逆転する)を用いて未知の部分を再構築し、非可逆タスクに適用性を広げる。
この再構成の質は、プリミティブタスクを最適化するための自己指導型報酬として機能し、LLMが両方のタスクを1つのモデルでインスタンス化する能力と相乗効果を持つ。
経験的に、DuPOは、平均翻訳品質を756方向平均2.13 COMETで向上し、3つのベンチマークで平均6.4ポイントの数学的推論精度を向上し、推論時間リランカとして9.3ポイントの性能を向上する(精度のトレーディング計算)。
これらの結果は、DuPOをLLM最適化のためのスケーラブルで汎用的でアノテーションのないパラダイムとして位置づけている。
関連論文リスト
- Generative Reasoning Re-ranker [24.386586034456673]
Generative Reasoning Reranker (GR2)は3段階のトレーニングパイプラインを備えたエンドツーエンドのフレームワークである。
GR2は、慎重に設計されたプロンプトとリジェクションサンプリングにより高品質な推論トレースを生成する。
2つの実世界のデータセットの実験では、GR2の有効性が示されている。
論文 参考訳(メタデータ) (2026-02-08T02:12:24Z) - MortgageLLM: Domain-Adaptive Pretraining with Residual Instruction Transfer, Alignment Tuning, and Task-Specific Routing [0.7367330074083941]
ドメイン固有の新しい大規模言語モデルであるMortgageLLMを提案する。
シングルベースモデルからデュアルトラックの特殊化フレームワークを用いて開発されている。
我々は,(1)高度に専門化された住宅ローン金融分野へのこの残留手法の適用,(2)対話型Q&Aモデルと,分類と要約のための構造化タスクモデルを組み合わせたデュアルエキスパートアーキテクチャ,(3)エキスパートモデル自体が行う少数ショット分類を用いたインテリジェントタスクルーティング機構を提案する。
論文 参考訳(メタデータ) (2025-11-26T06:37:57Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - Omni-DPO: A Dual-Perspective Paradigm for Dynamic Preference Learning of LLMs [28.41899655478021]
Omni-DPOは、各選好ペアの固有品質とそれらのペア上でのモデルの進化性能を考慮に入れた双対パースペクティブ最適化フレームワークである。
様々なモデルとベンチマークの実験結果から,Omni-DPOの優位性と一般化能力が示された。
論文 参考訳(メタデータ) (2025-06-11T17:58:05Z) - MDPO: Multi-Granularity Direct Preference Optimization for Mathematical Reasoning [0.0]
大規模言語モデル(LLM)の数学的推論を最適化するMDPO(Multi-Granularity Direct Preference Optimization)法を提案する。
我々はオープンソースのQwen2とLlama3で実験を行い、GSM8Kデータセットで1.7%と1.2%、MATHデータセットで2.3%と1.2%の改善を実現した。
また、MDPOトレーニングデータを構築するためのパイプラインも提供しています。
論文 参考訳(メタデータ) (2025-05-30T08:42:14Z) - Teaching Large Language Models to Maintain Contextual Faithfulness via Synthetic Tasks and Reinforcement Learning [80.27561080938747]
CANOEは、人間のアノテーションを使わずに、下流のさまざまなタスクにまたがる大きな言語モデルの忠実性の幻覚を減らすためのフレームワークである。
Dual-GRPOはルールベースの強化学習手法であり、合成された短値QAデータから得られる3つのルールベースの報酬を含む。
実験の結果、CANOEは11のタスクにまたがるLLMの忠実さを大幅に改善し、最も進歩したLLMよりも優れていた。
論文 参考訳(メタデータ) (2025-05-22T10:10:07Z) - Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs [29.735465300269993]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示してきたが、しばしば空間的推論に苦しむ。
本稿では LLM と Answer Set Programming (ASP) の反復的フィードバックにより LLM の空間推論能力を高める新しいニューラルシンボリックフレームワークを提案する。
我々は、StepGameとSparQAという2つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-11-27T18:04:05Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。