論文の概要: Auditing the Reliability of Multimodal Generative Search
- arxiv url: http://arxiv.org/abs/2604.00944v1
- Date: Wed, 01 Apr 2026 14:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.032943
- Title: Auditing the Reliability of Multimodal Generative Search
- Title(参考訳): マルチモーダル生成探索の信頼性の検討
- Authors: Erfan Samieyan Sahneh, Luca Maria Aiello,
- Abstract要約: 本稿では,Gemini 2.5 Proマルチモーダル検索システムの大規模監査を行い,11,943対のクレームビデオ解析を行った。
審査員の厳格性により、ビデオグラウンドドクレームの3.7%から18.7%は、引用された資料では支持されていないことが判明した。
- 参考スコア(独自算出の注目度): 0.10742675209112622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) increasingly function as generative search systems that retrieve and synthesize answers from multimedia content, including YouTube videos. Although these systems project authority by citing specific videos as evidence, the extent to which these citations genuinely substantiate the generated claims remains unexamined. We present a large-scale audit of the Gemini 2.5 Pro multimodal search system, analyzing 11,943 claim-video pairs generated across Medical, Economic, and General domains. Through automated verification using three independent LLM judges (87.7% inter-rater agreement), validated against human annotations, we find that depending on the judge's strictness, between 3.7% and 18.7% of video-grounded claims are not supported by their cited sources. The dominant failure modes are not outright contradictions but rather unverifiable specificities and overstated claims, suggesting the system injects precise but ungrounded details from parametric knowledge while citing videos as evidence. Exploratory post-hoc analysis via logistic regression reveals properties associated with these failures: claims departing from source vocabulary ($β= -1.6$ to $-3.1$, $p < 0.01$) and claims with low semantic similarity to the video transcript ($β= -2.1$ to $-11.6$, $p < 0.01$) are significantly more likely to be unsupported. These findings characterize the current trustworthiness of video-based generative search and highlight the gap between the confidence these systems project and the fidelity of their outputs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、YouTubeビデオを含むマルチメディアコンテンツから回答を検索し、合成する生成検索システムとして機能する。
これらのシステムでは、特定の動画を証拠として引用することで権限を計画しているが、これらの引用が真に生成された主張を裏付ける程度は未検証のままである。
本稿では,医療,経済,一般ドメイン間で発生した11,943件のクレームビデオ対を分析し,Gemini 2.5 Proマルチモーダルサーチシステムの大規模監査を行う。
3人の独立したLCM判事(87.7%のインターレータ契約)による自動検証により、審査員の厳格性に応じて、ビデオグラウンドドクレームの3.7%から18.7%は、引用された資料では支持されないことがわかった。
支配的な障害モードは、完全に矛盾するものではなく、むしろ検証不可能な特異性や過大評価された主張であり、このシステムはビデオを証拠として引用しながら、パラメトリックな知識から正確だが根拠のない詳細を注入していることを示唆している。
ロジスティック回帰による探索的なポストホック分析では、これらの障害に関連する特性が明らかにされている: ソース語彙(β=-1.6$から$-3.1$, $p < 0.01$)から離脱するクレームと、ビデオトランスクリプト(β=-2.1$から$-11.6$, $p < 0.01$)とのセマンティックな類似性が低いクレームは、サポートされない可能性が著しく高い。
これらの知見は,映像に基づく生成検索の信頼性を特徴とし,その信頼性と出力の忠実さとのギャップを浮き彫りにしている。
関連論文リスト
- MMOU: A Massive Multi-Task Omni Understanding and Reasoning Benchmark for Long and Complex Real-World Videos [118.61621763485465]
MMOUは、15,000の慎重にキュレートされた質問と9038のウェブコレクトビデオからなる。
ベンチマークには13の基本的なスキルカテゴリが含まれており、いずれもモダリティと時間にまたがるエビデンスを統合する必要がある。
我々は、MMOU上で20以上の最先端のオープンソースおよびプロプライエタリなマルチモーダルモデルを評価する。
論文 参考訳(メタデータ) (2026-03-14T22:28:38Z) - Contradiction to Consensus: Dual Perspective, Multi Source Retrieval Based Claim Verification with Source Level Disagreement using LLM [0.17188280334580197]
事実確認と呼ばれるクレーム検証は、潜在的な誤情報を特定するのに役立つ。
ほとんどの自動クレーム検証システムは単一の知識源に依存している。
オープンドメインのクレーム検証のための新しいシステムを提案する。
論文 参考訳(メタデータ) (2026-02-21T02:21:31Z) - Probing Multimodal Large Language Models on Cognitive Biases in Chinese Short-Video Misinformation [34.28647703173823]
短いビデオプラットフォームは誤情報の主要なチャネルとなり、虚偽の主張は視覚実験や社会的手がかりを活用する。
4つの健康ドメインにまたがる200本の短いビデオからなる高品質で手動の注釈付きデータセットを用いた総合的な評価フレームワークを提案する。
このデータセットは、3つの偽りのパターン、実験的なエラー、論理的誤認、および製造されたクレームに対するきめ細かいアノテーションを提供する。
論文 参考訳(メタデータ) (2026-01-10T15:43:30Z) - OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs [72.425061028374]
音声・視覚の相乗的理解を評価するためのベンチマークであるOmniVideoBenchを紹介する。
OmniVideoBenchは1000の高品質なQA(QA)ペアで構成され、それぞれにステップバイステップの推論トレースが付加されている。
我々はOmniVideoBenchをリリースし、より強力でより一般化可能な推論機能を持つMLLMの開発を促進する。
論文 参考訳(メタデータ) (2025-10-12T16:34:00Z) - Detecting YouTube Scam Videos via Multimodal Signals and Policy Reasoning [7.991370731695462]
本研究は,YouTubeスカム検出のためのマルチモーダル手法に関する最初の体系的な研究である。
我々のデータセットは、確立された詐欺カテゴリを集約し、フル長のビデオコンテンツとポリシーに基づく推論アノテーションでそれらを強化します。
本フレームワークは,コンテンツポリシーに根ざした解釈可能な推論を生成し,透過性を向上し,自動モデレーションにおける潜在的な応用を支援する。
論文 参考訳(メタデータ) (2025-09-27T17:24:55Z) - DeepTRACE: Auditing Deep Research AI Systems for Tracking Reliability Across Citations and Evidence [50.97612134791782]
生成検索エンジンと深層研究のLLMエージェントは、信頼できるソース・グラウンドの合成を約束するが、ユーザーは常に過剰な自信、弱いソーシング、紛らわしい引用の慣行に遭遇する。
DeepTRACEは、社会技術的に基礎をおく新しい監査フレームワークで、コミュニティが特定した失敗事例を、回答テキスト、情報源、引用にまたがる8つの測定可能な次元に変換する。
論文 参考訳(メタデータ) (2025-09-02T00:32:38Z) - CRAVE: A Conflicting Reasoning Approach for Explainable Claim Verification Using LLMs [15.170312674645535]
CRAVE は、説明可能なクレーム VErification に対する Conflicting Reasoning Approach である。
大規模な言語モデルによって推論される矛盾する理性に基づいて、複雑なクレームを検証することができる。
CRAVEは最先端の手法よりもはるかに優れた性能を実現している。
論文 参考訳(メタデータ) (2025-04-21T07:20:31Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。
予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文 参考訳(メタデータ) (2024-11-20T00:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。