Fugu-MT 論文翻訳(概要): CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs

論文の概要: CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs

arxiv url: http://arxiv.org/abs/2501.16629v1
Date: Tue, 28 Jan 2025 02:05:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-29 22:09:11.024346
Title: CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs
Title（参考訳）: CHiP:マルチモーダルLLMのためのクロスモーダル階層的直接選好最適化
Authors: Jinlan Fu, Shenzhen Huangfu, Hao Fei, Xiaoyu Shen, Bryan Hooi, Xipeng Qiu, See-Kiong Ng,
Abstract要約: MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
参考スコア（独自算出の注目度）: 107.21334626890713
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Large Language Models (MLLMs) still struggle with hallucinations despite their impressive capabilities. Recent studies have attempted to mitigate this by applying Direct Preference Optimization (DPO) to multimodal scenarios using preference pairs from text-based responses. However, our analysis of representation distributions reveals that multimodal DPO struggles to align image and text representations and to distinguish between hallucinated and non-hallucinated descriptions. To address these challenges, in this work, we propose a Cross-modal Hierarchical Direct Preference Optimization (CHiP) to address these limitations. We introduce a visual preference optimization module within the DPO framework, enabling MLLMs to learn from both textual and visual preferences simultaneously. Furthermore, we propose a hierarchical textual preference optimization module that allows the model to capture preferences at multiple granular levels, including response, segment, and token levels. We evaluate CHiP through both quantitative and qualitative analyses, with results across multiple benchmarks demonstrating its effectiveness in reducing hallucinations. On the Object HalBench dataset, CHiP outperforms DPO in hallucination reduction, achieving improvements of 52.7% and 55.5% relative points based on the base model Muffin and LLaVA models, respectively. We make all our datasets and code publicly available: https://github.com/LVUGAI/CHiP.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。近年の研究では、テキストベースの応答からの選好ペアを用いて、マルチモーダルシナリオにダイレクト・プライス・オプティマイズ(DPO)を適用することで、この問題を緩和しようとしている。しかし,表現分布の解析により,マルチモーダルDPOは画像とテキストの表現の整合に苦慮し,幻覚的記述と非幻覚的記述の区別に苦慮していることが明らかとなった。これらの課題に対処するため、本研究では、これらの制限に対処するクロスモーダル階層的直接選好最適化(CHiP)を提案する。 DPOフレームワーク内に視覚的嗜好最適化モジュールを導入し、MLLMがテキストと視覚的嗜好の両方から同時に学習できるようにする。さらに,応答レベル,セグメントレベル,トークンレベルなど,複数の粒度レベルで好みを把握可能な階層的テキスト優先最適化モジュールを提案する。定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。 Object HalBench データセットでは、CHiP は幻覚の減少において DPO よりも優れており、それぞれ Muffin モデルと LLaVA モデルに基づいて 52.7% と 55.5% の相対点の改善を実現している。すべてのデータセットとコードは、https://github.com/LVUGAI/CHiP.com/で公開しています。

関連論文リスト

Mitigating Hallucinations in Large Vision-Language Models via Entity-Centric Multimodal Preference Optimization [40.68121267969432]
既存の嗜好アライメント手法は、画像-テキストのモダリティアライメントを無視しながら、人間の嗜好とモデル応答の整合性に重点を置いている。改良されたモダリティアライメントを実現するエンティティ中心型マルチモーダル参照最適化(EMPO)を提案する。 EMPOは、Object-HalBenchで85.9%、MM-HalBenchで49.8%の幻覚率を減少させる。
論文参考訳（メタデータ） (2025-06-04T15:03:50Z)
Zooming from Context to Cue: Hierarchical Preference Optimization for Multi-Image MLLMs [74.74767980885758]
マルチレベル優先最適化フレームワークであるContext-to-Cue Direct Preference Optimization (CcDPO)を提案する。 CcDPOは、シーケンシャルなコンテキストからローカルな詳細まで、視覚的なヒントをズームすることで、マルチイメージ設定でのイメージ単位の知覚を強化する。実験により、CcDPOは幻覚を著しく減少させ、一貫した性能向上をもたらすことが示された。
論文参考訳（メタデータ） (2025-05-28T14:24:02Z)
AdaViP: Aligning Multi-modal LLMs via Adaptive Vision-enhanced Preference Optimization [26.03204301595711]
本稿では,2つの重要なイノベーションを通じて制限に対処する適応型視覚強調最適化(AdaViP)を提案する。視覚に基づく選好ペア構築は、複数の視覚基盤モデルを統合し、画像から重要な視覚要素を戦略的に除去する。 AdaViP-7Bは、Object HalBench上でそれぞれ応答レベルと言及レベルの幻覚を93.7%、96.4%減少させる。
論文参考訳（メタデータ） (2025-04-22T06:19:38Z)
Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。 DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文参考訳（メタデータ） (2025-02-20T08:27:00Z)
Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [19.37373012848517]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文参考訳（メタデータ） (2025-02-18T18:59:57Z)
Multimodal Preference Data Synthetic Alignment with Reward Model [23.978820500281213]
本稿では,DPOトレーニングによる効果的なマルチモーダルアライメントのための人選好のプロキシとして,報酬モデルを用いて合成データを生成する新しいフレームワークを提案する。実験結果から、生成モデルや報酬モデルのような選択された合成データの統合は、人手による注釈付きデータへの依存を効果的に軽減できることが示された。
論文参考訳（メタデータ） (2024-12-23T09:29:40Z)
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models [85.30735602813093]
Multi-Image Augmented Direct Preference Optimization (MIA-DPO)は、マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチである。 MIA-DPOは、グリッドコラージュやピクチャ・イン・ピクチャ形式で配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減する。
論文参考訳（メタデータ） (2024-10-23T07:56:48Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Understanding Alignment in Multimodal LLMs: A Comprehensive Study [46.33812471516309]
マルチモーダル大言語モデル(MLLM)における嗜好アライメントのそれぞれの側面を解析する。オフライン手法とオンライン手法を組み合わせることで,特定のシナリオにおけるモデルの性能が向上することを示す。 BDHS(Bias-Driven Hallucination Smpling)と呼ばれる,マルチモーダルな嗜好データ作成手法を提案する。
論文参考訳（メタデータ） (2024-07-02T17:55:03Z)
mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文参考訳（メタデータ） (2024-06-17T17:59:58Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。