論文の概要: Multi-Stage Verification-Centric Framework for Mitigating Hallucination in Multi-Modal RAG
- arxiv url: http://arxiv.org/abs/2507.20136v1
- Date: Sun, 27 Jul 2025 05:45:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.065999
- Title: Multi-Stage Verification-Centric Framework for Mitigating Hallucination in Multi-Modal RAG
- Title(参考訳): マルチモードRAGにおける幻覚の緩和のための多段階検証-Centric Framework
- Authors: Baiyu Chen, Wilson Wongso, Xiaoqian Hu, Yue Tan, Flora Salim,
- Abstract要約: 本稿では, KDD Cup 2025 Meta Comprehensive RAG Benchmark for Multi-modal, Multi-turn (CRAG-MM) のチーム CRUISE による技術ソリューションを提案する。
この課題は、視覚言語モデル(VLM)の重要な限界、すなわち幻覚への適合性に対処することを目的としている。
本ソリューションでは,効率向上のための軽量なクエリルータ,クエリ対応検索と要約パイプライン,デュアルパス生成,ポストホック検証を統合した。
- 参考スコア(独自算出の注目度): 3.9063541371093184
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents the technical solution developed by team CRUISE for the KDD Cup 2025 Meta Comprehensive RAG Benchmark for Multi-modal, Multi-turn (CRAG-MM) challenge. The challenge aims to address a critical limitation of modern Vision Language Models (VLMs): their propensity to hallucinate, especially when faced with egocentric imagery, long-tail entities, and complex, multi-hop questions. This issue is particularly problematic in real-world applications where users pose fact-seeking queries that demand high factual accuracy across diverse modalities. To tackle this, we propose a robust, multi-stage framework that prioritizes factual accuracy and truthfulness over completeness. Our solution integrates a lightweight query router for efficiency, a query-aware retrieval and summarization pipeline, a dual-pathways generation and a post-hoc verification. This conservative strategy is designed to minimize hallucinations, which incur a severe penalty in the competition's scoring metric. Our approach achieved 3rd place in Task 1, demonstrating the effectiveness of prioritizing answer reliability in complex multi-modal RAG systems. Our implementation is available at https://github.com/Breezelled/KDD-Cup-2025-Meta-CRAG-MM .
- Abstract(参考訳): 本稿では,KDD Cup 2025 Meta Comprehensive RAG Benchmark for Multi-modal, Multi-turn (CRAG-MM) Challengeに対して,チームCRUISEによって開発された技術的ソリューションを提案する。
この課題は現代の視覚言語モデル(VLM)の限界に対処することを目的としており、特にエゴセントリックなイメージ、ロングテールなエンティティ、複雑でマルチホップな質問に直面する場合、幻覚への適合性である。
この問題は、様々なモダリティにまたがって高精度な事実検索クエリをユーザが要求する現実世界のアプリケーションでは特に問題となる。
そこで本研究では,完全性よりも事実の正確性や真理性を優先する,堅牢で多段階的なフレームワークを提案する。
本ソリューションでは,効率向上のための軽量なクエリルータ,クエリ対応検索と要約パイプライン,デュアルパス生成,ポストホック検証を統合した。
この保守的な戦略は幻覚を最小限に抑えるように設計されており、競技の得点基準で厳しいペナルティをもたらす。
提案手法は,複雑なマルチモーダルRAGシステムにおける回答信頼性の優先順位付けの有効性を示す第1タスクにおいて3位となった。
我々の実装はhttps://github.com/Breezelled/KDD-Cup-2025-Meta-CRAG-MM で利用可能です。
関連論文リスト
- QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering [27.567923098020586]
本稿では,知識集約型VQAのためのクエリ対応動的RAGシステムQA-Dragonを提案する。
テキストと画像検索エージェントをハイブリッド化することにより,マルチモーダル,マルチターン,マルチホップ推論をサポートする。
KDDカップ2025におけるメタCRAG-MMチャレンジの枠組みを評価する。
論文 参考訳(メタデータ) (2025-08-07T09:32:49Z) - Solution for Meta KDD Cup'25: A Comprehensive Three-Step Framework for Vision Question Answering [7.481274094559558]
本稿ではBlackPearlチームによるMeta KDD Cup'25における全タスクの解について述べる。
各タスクに1つのモデルを使用し、データ拡張、RAG、再ランク付け、微調整を含む主要なメソッドを扱います。
提案手法は,3つのタスクにおいて3位,3位,1位の自動評価を達成し,人的評価の後,第3タスクで2位を獲得した。
論文 参考訳(メタデータ) (2025-07-29T06:07:59Z) - RAMA: Retrieval-Augmented Multi-Agent Framework for Misinformation Detection in Multimodal Fact-Checking [15.160356035522609]
RAMAは、マルチメディアの誤情報を検証するために設計された新しい検索拡張マルチエージェントフレームワークである。
RAMAには,(1)マルチモーダルクレームを正確なWeb検索クエリに変換する戦略的クエリの定式化,(2)多様な権威ソースからの相互検証証拠の集約,(3)マルチエージェントアンサンブルアーキテクチャの3つの革新が含まれている。
論文 参考訳(メタデータ) (2025-07-12T07:46:51Z) - ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - MAPLE: Multi-Agent Adaptive Planning with Long-Term Memory for Table Reasoning [9.647162327984638]
テーブルベースの質問応答は、現在のLLMが達成に苦慮している複雑な推論機能を必要とする。
我々は,フィードバック駆動ループで作業する認知エージェントを通じて,人間の問題解決を模倣する新しいフレームワークMAPLEを提案する。
論文 参考訳(メタデータ) (2025-06-06T07:21:28Z) - Reinforced Informativeness Optimization for Long-Form Retrieval-Augmented Generation [77.10390725623125]
LFQA(Long-form Question answering)は、大規模言語モデルに固有の課題を提示する。
RioRAGは、強化情報性最適化を通じて長めのRAGを進化させる新しい強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-05-27T07:34:41Z) - Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective [42.832839189236694]
テキスト,テーブル,画像にまたがるマルチモーダル入力のためのマルチエージェントQAフレームワークであるMAMMQAを提案する。
このシステムには2つのVisual Language Model (VLM)エージェントと1つのテキストベースLarge Language Model (LLM)エージェントが含まれる。
多様なマルチモーダルQAベンチマークの実験により、我々の協調型マルチエージェントフレームワークは、精度と堅牢性の両方で既存のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-05-27T07:23:38Z) - Retrieval-Augmented Dynamic Prompt Tuning for Incomplete Multimodal Learning [27.867369806400834]
本稿では,Retrieval-AuGmented Dynamic Prompt TuningフレームワークであるRAGPTを提案する。
RAGPTは、(I)マルチチャネルレトリバー、(II)モダリティ生成器、(III)コンテキスト認識プロンプトの3つのモジュールから構成される。
3つの実世界のデータセットで実施された実験によると、RAGPTは不完全なモダリティ問題に対処する際の全ての競争ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-01-02T07:39:48Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [92.5712549836791]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。