論文の概要: OmniDPO: A Preference Optimization Framework to Address Omni-Modal Hallucination
- arxiv url: http://arxiv.org/abs/2509.00723v1
- Date: Sun, 31 Aug 2025 07:19:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.361197
- Title: OmniDPO: A Preference Optimization Framework to Address Omni-Modal Hallucination
- Title(参考訳): OmniDPO: Omni-Modal Hallucinationに対処するための推奨最適化フレームワーク
- Authors: Junzhe Chen, Tianshu Zhang, Shiyu Huang, Yuwei Niu, Chao Sun, Rongzhou Zhang, Guanyu Zhou, Lijie Wen, Xuming Hu,
- Abstract要約: Omni-modal large language model (OLLM) における幻覚を軽減するために設計された好み調整フレームワークであるOmniDPOを提案する。
両課題に対処することにより、OmniDPOはマルチモーダルグラウンドを効果的に改善し、幻覚を減少させる。
- 参考スコア(独自算出の注目度): 32.43796002503023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Omni-modal large language models (OLLMs) have sparked a new wave of research, achieving impressive results in tasks such as audio-video understanding and real-time environment perception. However, hallucination issues still persist. Similar to the bimodal setting, the priors from the text modality tend to dominate, leading OLLMs to rely more heavily on textual cues while neglecting visual and audio information. In addition, fully multimodal scenarios introduce new challenges. Most existing models align visual or auditory modalities with text independently during training, while ignoring the intrinsic correlations between video and its corresponding audio. This oversight results in hallucinations when reasoning requires interpreting hidden audio cues embedded in video content. To address these challenges, we propose OmniDPO, a preference-alignment framework designed to mitigate hallucinations in OLLMs. Specifically, OmniDPO incorporates two strategies: (1) constructing text-preference sample pairs to enhance the model's understanding of audio-video interactions; and (2) constructing multimodal-preference sample pairs to strengthen the model's attention to visual and auditory information. By tackling both challenges, OmniDPO effectively improves multimodal grounding and reduces hallucination. Experiments conducted on two OLLMs demonstrate that OmniDPO not only effectively mitigates multimodal hallucinations but also significantly enhances the models' reasoning capabilities across modalities. All code and datasets will be released upon paper acceptance.
- Abstract(参考訳): 近年,Omni-modal large language model (OLLM) が新たな研究の波を巻き起こし,音声映像理解やリアルタイム環境認識といったタスクにおいて顕著な成果を上げている。
しかし、幻覚の問題は今も続いている。
バイモーダル設定と同様に、テキストモダリティの先行は支配的になりがちであり、OLLMは視覚情報や音声情報を無視しながらテキストの手がかりに大きく依存する。
さらに、完全なマルチモーダルシナリオは、新しい課題をもたらす。
既存のモデルの多くは、映像とそれに対応する音声の内在的相関を無視しながら、訓練中に独立して視覚的・聴覚的モダリティをテキストと整合させる。
この監視は、ビデオコンテンツに埋め込まれた隠れたオーディオキューを解釈する必要がある場合、幻覚を引き起こす。
これらの課題に対処するため、OLLMにおける幻覚を軽減するために設計された好み調整フレームワークであるOmniDPOを提案する。
特に,OmniDPOは,(1)音声とビデオの相互作用に対する理解を高めるためにテキスト参照サンプルペアを構築すること,(2)視覚および聴覚情報に対するモデルの注意を強化するためにマルチモーダル参照サンプルペアを構築すること,の2つの戦略を取り入れている。
両課題に対処することにより、OmniDPOはマルチモーダルグラウンドを効果的に改善し、幻覚を減少させる。
2つのOLLM実験により、OmniDPOはマルチモーダル幻覚を効果的に緩和するだけでなく、モダリティを越えてモデルの推論能力を大幅に向上させることを示した。
すべてのコードとデータセットは、論文の受理時にリリースされる。
関連論文リスト
- Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization [55.543583937522804]
MLLM(Multimodal Large Language Models)は、様々なタスクに対処するための統一インターフェースとして登場した。
多くのベンチマークで最先端の結果が誇示されているにもかかわらず、長年の問題はMLLMが幻覚を起こす傾向にある。
本稿では,幻覚の問題をアライメント問題として取り上げ,幻覚を伴わないコンテンツを生成するためのMLLMのステアリングを試みる。
論文 参考訳(メタデータ) (2025-08-27T18:02:04Z) - Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。
これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。
LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文 参考訳(メタデータ) (2025-05-20T15:44:01Z) - AVHBench: A Cross-Modal Hallucination Benchmark for Audio-Visual Large Language Models [27.430040932849018]
AVHBenchは、音声視覚モデルの知覚と理解能力を評価するために設計された最初の総合的なベンチマークである。
以上の結果から,既存のLLMはモダリティ間の相互相互作用による幻覚に苦慮していることが明らかとなった。
AVHBenchを用いた簡単なトレーニングは幻覚に対する聴覚的LLMの堅牢性を向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-23T23:36:06Z) - OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities [124.05360767047539]
我々は、SoTA Omni-modality Language Modelsをベンチマークするために設計された評価スイートであるOmnixRを紹介する。
OLMはテキスト、ビジョン、オーディオなどの複数のモードを統合し、ユニークな課題を提示する。
実験の結果,OmnixR問題に対処するためには,複数のモダリティからの情報を統合する必要があることがわかった。
論文 参考訳(メタデータ) (2024-10-16T04:29:46Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware
Direct Preference Optimization [45.53216822981202]
本稿では,Halucination-Aware Direct Preference Optimization (HA-DPO)を提案する。
3つの主要なマルチモーダルモデルに適用すると、HA-DPOは幻覚の問題を著しく減らし、モデルの一般化能力を増幅した。
論文 参考訳(メタデータ) (2023-11-28T14:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。