論文の概要: TARS: MinMax Token-Adaptive Preference Strategy for Hallucination Reduction in MLLMs
- arxiv url: http://arxiv.org/abs/2507.21584v1
- Date: Tue, 29 Jul 2025 08:39:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.863492
- Title: TARS: MinMax Token-Adaptive Preference Strategy for Hallucination Reduction in MLLMs
- Title(参考訳): TARS:M MinMax Token-Adaptive Preference Strategy for Hallucination Reduction in MLLMs
- Authors: Kejia Zhang, Keda Tao, Zhiming Luo, Chang Liu, Jiasheng Tang, Huan Wang,
- Abstract要約: MLLM(Multimodal large language model)は、視覚的推論を可能にするが、実際は正しくない、あるいは視覚的に見当たらない出力を生成することが多い。
直接選好最適化(DPO)は、モデル出力を人間の選好と整合させることで幻覚を補正する一般的な戦略である。
本稿では,DPO を min-max 最適化問題として再構成するトークン適応型選好戦略である TARS を提案する。
- 参考スコア(独自算出の注目度): 17.776737597391843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) enable vision-language reasoning, yet often generate plausible outputs that are factually incorrect or visually ungrounded, thereby compromising their reliability. Direct preference optimization (DPO) is a common strategy for correcting hallucinations by aligning model outputs with human preferences. Existing DPO strategies typically treat hallucination-related preferences as fixed targets, relying on static supervision signals during training. This approach tends to overfit to superficial linguistic cues in preference data, leading to distributional rigidity and spurious correlations that impair grounding in causally relevant visual information. To overcome this limitation, we propose TARS, a token-adaptive preference strategy that reformulates DPO as a min-max optimization problem. TARS maximizes token-level distributional shifts under semantic constraints to simulate alignment uncertainty, and simultaneously minimizes the expected preference loss under these controlled perturbations. This joint objective preserves causal grounding while mitigating overfitting to preference patterns, thereby reducing hallucinations in multimodal reasoning. We evaluate TARS on multiple hallucination benchmarks and find consistently strong performance. Using only 4.8k preference samples and no expert feedback, TARS reduces hallucination rates from 26.4% to 13.2% and decreases cognition value from 2.5 to 0.4. It outperforms standard DPO and matches GPT-4o on several key metrics.
- Abstract(参考訳): MLLM(Multimodal large language model)は、視覚言語による推論を可能にするが、実際は誤りや視覚的アングラウンドな出力を生成し、信頼性を損なう。
直接選好最適化(DPO)は、モデル出力を人間の選好と整合させることで幻覚を補正する一般的な戦略である。
既存のDPO戦略は、訓練中に静的な監視信号に依存して、幻覚に関連する嗜好を固定目標として扱うのが一般的である。
このアプローチは、嗜好データにおける表面的な言語的手がかりに過度に適合する傾向があり、因果関係の視覚情報に根ざすような分布的剛性や刺激的な相関をもたらす。
この制限を克服するために,DPOをmin-max最適化問題として再構成するトークン適応型選好戦略であるTARSを提案する。
TARSは、セマンティック制約の下でトークンレベルの分布シフトを最大化し、アライメントの不確実性をシミュレートし、これらの制御された摂動下での予測された優先損失を同時に最小化する。
この共同目的は、嗜好パターンへの過度適合を緩和しながら因果的接地を保ち、マルチモーダル推論における幻覚を低減させる。
複数の幻覚ベンチマークでTARSを評価し,一貫した性能を示した。
わずか4.8kの選好サンプルと専門家のフィードバックがないため、TARSは幻覚率を26.4%から13.2%に下げ、認知値を2.5から0.4に下げる。
標準的なDPOよりも優れており、いくつかの重要な指標でGPT-4oと一致している。
関連論文リスト
- Mitigating Hallucination Through Theory-Consistent Symmetric Multimodal Preference Optimization [58.64721525687295]
マルチモーダル大言語モデル(MLLM)における幻覚を緩和するための効果的なアプローチとして、直接選好最適化(DPO)が登場している。
我々は、直接選好監督(応答対)を伴う対称選好学習を行うシンメトリ・マルチモーダル選好最適化(SymMPO)を提案する。
従来の順序的嗜好学習に加えて、SymMPOは、左右の選好ペア間の選好ギャップを定量的に調節する、選好マージン整合性損失を導入している。
論文 参考訳(メタデータ) (2025-06-13T12:29:15Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。