論文の概要: ASPO: Adaptive Sentence-Level Preference Optimization for Fine-Grained Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2505.19100v1
- Date: Sun, 25 May 2025 11:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.905984
- Title: ASPO: Adaptive Sentence-Level Preference Optimization for Fine-Grained Multimodal Reasoning
- Title(参考訳): ASPO:細粒度マルチモーダル推論のための適応文レベル推論最適化
- Authors: Yeyuan Wang, Dehong Gao, Rujiao Long, Lei Yi, Linbo Jin, Libin Yang, Xiaoyan Cai,
- Abstract要約: 直接選好最適化(DPO)は,大規模言語モデル(LLM)の整合性において,その単純さと計算効率に注目されている。
最近の進歩はDPOをマルチモーダルシナリオに拡張し、高いパフォーマンスを実現している。
従来のDPOは、細かなセグメントの正しさを考慮せずに、二分選好の最適化、報酬、全応答のペナルティ化に依存している。
本稿では、より正確な選好最適化のために個々の文を評価する適応文レベルの選好最適化(ASPO)を提案する。
- 参考スコア(独自算出の注目度): 14.034412856423529
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Direct Preference Optimization (DPO) has gained significant attention for its simplicity and computational efficiency in aligning large language models (LLMs). Recent advancements have extended DPO to multimodal scenarios, achieving strong performance. However, traditional DPO relies on binary preference optimization, rewarding or penalizing entire responses without considering fine-grained segment correctness, leading to suboptimal solutions. The root of this issue lies in the absence of fine-grained supervision during the optimization process. To address this, we propose Adaptive Sentence-level Preference Optimization (ASPO), which evaluates individual sentences for more precise preference optimization. By dynamically calculating adaptive rewards at the sentence level based on model predictions, ASPO enhances response content assessment without additional models or parameters. This significantly improves the alignment of multimodal features. Extensive experiments show that ASPO substantially enhances the overall performance of multimodal models.
- Abstract(参考訳): 直接選好最適化(DPO)は、大規模言語モデル(LLM)の整合性において、その単純さと計算効率に大きな注目を集めている。
最近の進歩はDPOをマルチモーダルシナリオに拡張し、高いパフォーマンスを実現している。
しかし、従来のDPOは、細かなセグメントの正しさを考慮せずに、二分選好最適化や報酬、全応答のペナルティ化に依存しており、最適でない解をもたらす。
この問題の根源は最適化プロセス中にきめ細かな監督がないことにある。
そこで本研究では,より精密な選好最適化のために個々の文を評価する適応文レベルの選好最適化(ASPO)を提案する。
モデル予測に基づいて文レベルで適応報酬を動的に計算することにより、ASPOは追加のモデルやパラメータなしで応答内容の評価を強化する。
これにより、マルチモーダル機能のアライメントが大幅に改善される。
大規模な実験により、ASPOはマルチモーダルモデルの全体的な性能を大幅に向上させることが示された。
関連論文リスト
- Optimal Transport-Based Token Weighting scheme for Enhanced Preference Optimization [17.801062522027266]
DPO(Direct Preference Optimization)は,大規模言語モデルと人間の嗜好を整合させる,有望なフレームワークとして登場した。
既存の方法は応答における全てのトークンに等しい重要性を割り当て、人間はより意味のある部分に焦点を当てる。
直接textbfPreference textbfOptimization (OTPO) を強化するための textbfOptimal textbfTransport を用いたトークン重み付け方式を提案する。
論文 参考訳(メタデータ) (2025-05-24T14:44:15Z) - Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - AIPO: Improving Training Objective for Iterative Preference Optimization [34.24211649396053]
合成データを用いた反復選好最適化について検討する。
我々は,反復選好最適化,すなわち合意対応反復選好最適化(AIPO)のための学習目標を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:03:49Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - Unified Preference Optimization: Language Model Alignment Beyond the Preference Frontier [0.5120567378386615]
大規模言語モデル(LLM)の整合化のための統一的アプローチを提案する。
好みと補助目的の単純な分解に基づいて、ユーザとデザイナーの好みを最適化するためにLLMをチューニングできる。
論文 参考訳(メタデータ) (2024-05-28T08:35:48Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。