論文の概要: BayesRAG: Probabilistic Mutual Evidence Corroboration for Multimodal Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2601.07329v1
- Date: Mon, 12 Jan 2026 08:53:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.296329
- Title: BayesRAG: Probabilistic Mutual Evidence Corroboration for Multimodal Retrieval-Augmented Generation
- Title(参考訳): BayesRAG:マルチモーダル検索・拡張ジェネレーションのための確率的相互証拠照合
- Authors: Xuan Li, Yining Wang, Haocai Luo, Shengping Liu, Jerry Liang, Ying Fu, Weihuang, Jun Yu, Junnan Zhu,
- Abstract要約: BayesRAGはベイズ推定とデンプスター・シェーファーのエビデンス理論に基づく新しいマルチモーダル検索フレームワークである。
我々は,BayesRAGがマルチモーダルベンチマークにおいて,最先端(SOTA)手法を著しく上回っていることを示す。
- 参考スコア(独自算出の注目度): 33.53566598271416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) has become a pivotal paradigm for Large Language Models (LLMs), yet current approaches struggle with visually rich documents by treating text and images as isolated retrieval targets. Existing methods relying solely on cosine similarity often fail to capture the semantic reinforcement provided by cross-modal alignment and layout-induced coherence. To address these limitations, we propose BayesRAG, a novel multimodal retrieval framework grounded in Bayesian inference and Dempster-Shafer evidence theory. Unlike traditional approaches that rank candidates strictly by similarity, BayesRAG models the intrinsic consistency of retrieved candidates across modalities as probabilistic evidence to refine retrieval confidence. Specifically, our method computes the posterior association probability for combinations of multimodal retrieval results, prioritizing text-image pairs that mutually corroborate each other in terms of both semantics and layout. Extensive experiments demonstrate that BayesRAG significantly outperforms state-of-the-art (SOTA) methods on challenging multimodal benchmarks. This study establishes a new paradigm for multimodal retrieval fusion that effectively resolves the isolation of heterogeneous modalities through an evidence fusion mechanism and enhances the robustness of retrieval outcomes. Our code is available at https://github.com/TioeAre/BayesRAG.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、Large Language Models (LLMs) の重要なパラダイムとなっているが、現在のアプローチでは、テキストや画像を孤立した検索対象として扱うことで、視覚的にリッチなドキュメントに苦慮している。
既存の手法はコサインの類似性にのみ依存しており、クロスモーダルアライメントとレイアウトによるコヒーレンスによって提供されるセマンティック強化を捕捉できないことが多い。
これらの制約に対処するため、ベイズ推定とデンプスター・シェーファーエビデンス理論に基づく新しいマルチモーダル検索フレームワークBayesRAGを提案する。
厳密な類似性によって候補者をランク付けする伝統的なアプローチとは異なり、ベイズラグは、検索された候補者の本質的な整合性をモダリティにわたってモデル化し、検索信頼性を洗練させる確率的証拠とした。
具体的には,相互に相互に相関するテキストと画像のペアをセマンティクスとレイアウトの両面から優先順位付けし,マルチモーダル検索結果の組み合わせに対する後続関連確率を算出する。
大規模な実験により、BayesRAGは、挑戦的なマルチモーダルベンチマークにおいて、最先端(SOTA)メソッドを著しく上回っていることが示されている。
本研究では,エビデンス融合機構によって不均一なモダリティの分離を効果的に解決し,検索結果の堅牢性を高めるマルチモーダル検索融合の新しいパラダイムを確立する。
私たちのコードはhttps://github.com/TioeAre/BayesRAG.comで公開されています。
関連論文リスト
- MMRAG-RFT: Two-stage Reinforcement Fine-tuning for Explainable Multi-modal Retrieval-augmented Generation [31.90681057778075]
MMRAG(Multi-modal Retrieval-Augmented Generation)は、外部のマルチモーダル知識を統合することで、信頼性の高い生成を可能にする。
既存のMMRAG法は、検索および応答生成の背後にある推論ロジックを明らかにすることができない。
論文 参考訳(メタデータ) (2025-12-19T03:19:54Z) - Empirical Bayesian Multi-Bandit Learning [8.980876474818153]
文脈的包帯におけるマルチタスク学習は、大きな研究関心を集めている。
本稿では,様々な帯域で学習する階層型ベイズフレームワークを提案する。
提案アルゴリズムは既存の手法に比べて累積的後悔度が低いことを示す。
論文 参考訳(メタデータ) (2025-10-30T09:08:07Z) - METER: Multi-modal Evidence-based Thinking and Explainable Reasoning -- Algorithm and Benchmark [48.78602579128459]
本稿では,画像,ビデオ,音声,映像コンテンツにまたがる偽造検出のための統合ベンチマークMETERを紹介する。
我々のデータセットは4つのトラックから構成されており、それぞれのトラックは実際のvsフェイク分類だけでなく、エビデンスチェーンに基づく説明も必要である。
論文 参考訳(メタデータ) (2025-07-22T03:42:51Z) - Exploring Image Generation via Mutually Exclusive Probability Spaces and Local Correlation Hypothesis [9.946694131713611]
画像生成のための確率的生成モデルにおける一般的な仮定は、グローバルなデータ分布の学習がサンプリングによって新しい画像を生成するのに十分であるということである。
我々は,この中核的な仮定の限界,すなわちグローバルな分布の学習が生成行動よりも記憶に繋がるということを考察する。
論文 参考訳(メタデータ) (2025-06-26T19:32:29Z) - RoHyDR: Robust Hybrid Diffusion Recovery for Incomplete Multimodal Emotion Recognition [17.612203615672744]
本稿では,一様,多様,特徴,意味レベルにおいて,モダリティの欠如を回復させる新しいフレームワークを提案する。
従来の研究とは対照的に、RoHyDRのハイブリッド拡散と対向学習に基づく回復機構は、単一モーダル表現とマルチモーダル融合の両方において欠落情報の回復を可能にする。
提案手法は最先端のIMER法より優れており, 様々なモダリティシナリオ下での頑健な認識性能を実現している。
論文 参考訳(メタデータ) (2025-05-23T05:52:17Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。