論文の概要: Multi-Stage Verification-Centric Framework for Mitigating Hallucination in Multi-Modal RAG
- arxiv url: http://arxiv.org/abs/2507.20136v1
- Date: Sun, 27 Jul 2025 05:45:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.065999
- Title: Multi-Stage Verification-Centric Framework for Mitigating Hallucination in Multi-Modal RAG
- Title(参考訳): マルチモードRAGにおける幻覚の緩和のための多段階検証-Centric Framework
- Authors: Baiyu Chen, Wilson Wongso, Xiaoqian Hu, Yue Tan, Flora Salim,
- Abstract要約: 本稿では, KDD Cup 2025 Meta Comprehensive RAG Benchmark for Multi-modal, Multi-turn (CRAG-MM) のチーム CRUISE による技術ソリューションを提案する。
この課題は、視覚言語モデル(VLM)の重要な限界、すなわち幻覚への適合性に対処することを目的としている。
本ソリューションでは,効率向上のための軽量なクエリルータ,クエリ対応検索と要約パイプライン,デュアルパス生成,ポストホック検証を統合した。
- 参考スコア(独自算出の注目度): 3.9063541371093184
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents the technical solution developed by team CRUISE for the KDD Cup 2025 Meta Comprehensive RAG Benchmark for Multi-modal, Multi-turn (CRAG-MM) challenge. The challenge aims to address a critical limitation of modern Vision Language Models (VLMs): their propensity to hallucinate, especially when faced with egocentric imagery, long-tail entities, and complex, multi-hop questions. This issue is particularly problematic in real-world applications where users pose fact-seeking queries that demand high factual accuracy across diverse modalities. To tackle this, we propose a robust, multi-stage framework that prioritizes factual accuracy and truthfulness over completeness. Our solution integrates a lightweight query router for efficiency, a query-aware retrieval and summarization pipeline, a dual-pathways generation and a post-hoc verification. This conservative strategy is designed to minimize hallucinations, which incur a severe penalty in the competition's scoring metric. Our approach achieved 3rd place in Task 1, demonstrating the effectiveness of prioritizing answer reliability in complex multi-modal RAG systems. Our implementation is available at https://github.com/Breezelled/KDD-Cup-2025-Meta-CRAG-MM .
- Abstract(参考訳): 本稿では,KDD Cup 2025 Meta Comprehensive RAG Benchmark for Multi-modal, Multi-turn (CRAG-MM) Challengeに対して,チームCRUISEによって開発された技術的ソリューションを提案する。
この課題は現代の視覚言語モデル(VLM)の限界に対処することを目的としており、特にエゴセントリックなイメージ、ロングテールなエンティティ、複雑でマルチホップな質問に直面する場合、幻覚への適合性である。
この問題は、様々なモダリティにまたがって高精度な事実検索クエリをユーザが要求する現実世界のアプリケーションでは特に問題となる。
そこで本研究では,完全性よりも事実の正確性や真理性を優先する,堅牢で多段階的なフレームワークを提案する。
本ソリューションでは,効率向上のための軽量なクエリルータ,クエリ対応検索と要約パイプライン,デュアルパス生成,ポストホック検証を統合した。
この保守的な戦略は幻覚を最小限に抑えるように設計されており、競技の得点基準で厳しいペナルティをもたらす。
提案手法は,複雑なマルチモーダルRAGシステムにおける回答信頼性の優先順位付けの有効性を示す第1タスクにおいて3位となった。
我々の実装はhttps://github.com/Breezelled/KDD-Cup-2025-Meta-CRAG-MM で利用可能です。
関連論文リスト
- RAMA: Retrieval-Augmented Multi-Agent Framework for Misinformation Detection in Multimodal Fact-Checking [15.160356035522609]
RAMAは、マルチメディアの誤情報を検証するために設計された新しい検索拡張マルチエージェントフレームワークである。
RAMAには,(1)マルチモーダルクレームを正確なWeb検索クエリに変換する戦略的クエリの定式化,(2)多様な権威ソースからの相互検証証拠の集約,(3)マルチエージェントアンサンブルアーキテクチャの3つの革新が含まれている。
論文 参考訳(メタデータ) (2025-07-12T07:46:51Z) - MAPLE: Multi-Agent Adaptive Planning with Long-Term Memory for Table Reasoning [9.647162327984638]
テーブルベースの質問応答は、現在のLLMが達成に苦慮している複雑な推論機能を必要とする。
我々は,フィードバック駆動ループで作業する認知エージェントを通じて,人間の問題解決を模倣する新しいフレームワークMAPLEを提案する。
論文 参考訳(メタデータ) (2025-06-06T07:21:28Z) - Reinforced Informativeness Optimization for Long-Form Retrieval-Augmented Generation [77.10390725623125]
LFQA(Long-form Question answering)は、大規模言語モデルに固有の課題を提示する。
RioRAGは、強化情報性最適化を通じて長めのRAGを進化させる新しい強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-05-27T07:34:41Z) - Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective [42.832839189236694]
テキスト,テーブル,画像にまたがるマルチモーダル入力のためのマルチエージェントQAフレームワークであるMAMMQAを提案する。
このシステムには2つのVisual Language Model (VLM)エージェントと1つのテキストベースLarge Language Model (LLM)エージェントが含まれる。
多様なマルチモーダルQAベンチマークの実験により、我々の協調型マルチエージェントフレームワークは、精度と堅牢性の両方で既存のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-05-27T07:23:38Z) - Retrieval-Augmented Dynamic Prompt Tuning for Incomplete Multimodal Learning [27.867369806400834]
本稿では,Retrieval-AuGmented Dynamic Prompt TuningフレームワークであるRAGPTを提案する。
RAGPTは、(I)マルチチャネルレトリバー、(II)モダリティ生成器、(III)コンテキスト認識プロンプトの3つのモジュールから構成される。
3つの実世界のデータセットで実施された実験によると、RAGPTは不完全なモダリティ問題に対処する際の全ての競争ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-01-02T07:39:48Z) - Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [92.5712549836791]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。