論文の概要: Checking Fact with Better Retrieval: Dynamic Contrastive Learning for Evidence Retrieval
- arxiv url: http://arxiv.org/abs/2605.27449v1
- Date: Sun, 24 May 2026 13:10:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.285939
- Title: Checking Fact with Better Retrieval: Dynamic Contrastive Learning for Evidence Retrieval
- Title(参考訳): より良い検索のためのファクトチェック:証拠検索のための動的コントラスト学習
- Authors: Zhongtian Hua, Yi Luo, Meijia Yu, Yingjie Han,
- Abstract要約: 既存の一般的なマルチモーダル検索手法は、しばしば意味論に基づいて構築される。
本稿では, DACLR と呼ばれる証拠の textbfRetrieval に対する textbfDynamic textbfAdaptive textbfContrastive textbfLearning 法を提案する。
- 参考スコア(独自算出の注目度): 13.535593449362475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of multimodal fact checking, the accuracy of retrieving evidence from different modalities has a significant impact on the downstream claim verification process. Existing general multimodal retrieval methods are often constructed based on semantics, resulting in the retrieved evidence being similar but not relevant to the claim. This paper proposes a \textbf{D}ynamic \textbf{A}daptive \textbf{C}ontrastive \textbf{L}earning method for evidence \textbf{R}etrieval called DACLR to address these issues. DACLR first uses a Multimodal Large Language Model (MLLM) to uniformly convert multimodal evidence and claims into text modalities, and extracts the features of these information at event level. Then, it conducts evidence retrieval through a two-stage retrieval method of recall-rerank. DACLR enhances the model's event perception ability of the retrieval stage by optimizing the contrastive loss and mining hard negative samples. Specifically, DACLR designs three loss functions at two levels (semantic and event) based on the InfoNCE loss.Corresponding to these, three sets of hard negative sample candidates are set up. The model dynamically adjusts the ratio based on the accuracy supervision signal of intra-batch samples, allowing the model to learn the correlation between claims and positive samples at the event level without forgetting the semantic retrieval ability. Extensive comparison and ablation experiments demonstrates the effectiveness of DACLR and its internal optimization methods. Further research also prove the advantages of DACLR in the field of multimodal evidence retrieval.
- Abstract(参考訳): マルチモーダル事実チェックの分野では、異なるモダリティから証拠を回収する精度が下流のクレーム検証プロセスに重大な影響を及ぼす。
既存の一般的なマルチモーダル検索手法は、しばしば意味論に基づいて構築される。
本稿では,これらの問題に対処するため,DACLR と呼ばれる証拠に対する \textbf{D}ynamic \textbf{A}daptive \textbf{C}ontrastive \textbf{L}earning 法を提案する。
DACLRはまずMLLM(Multimodal Large Language Model)を使用して、マルチモーダルエビデンスとクレームを一様にテキストモダリティに変換し、これらの情報の特徴をイベントレベルで抽出する。
そして、リコール・リロードの2段階の検索方法により証拠検索を行う。
DACLRは、対照的な損失を最適化し、ハードネガティブサンプルをマイニングすることで、検索段階におけるモデルの事象認識能力を向上する。
具体的には、DACLRはInfoNCEの損失に基づいて、2つのレベル(セマンティックとイベント)で3つの損失関数を設計する。
モデルでは,バッチ内サンプルの精度監視信号に基づいて比を動的に調整し,イベントレベルでのクレームと正のサンプルの相関関係を,意味的検索能力を忘れずに学習する。
拡張比較およびアブレーション実験は、DACLRとその内部最適化手法の有効性を示す。
さらに、マルチモーダルエビデンス検索の分野でDACLRの利点も証明している。
関連論文リスト
- Benchmarking Deflection and Hallucination in Large Vision-Language Models [25.176271096443482]
既存のベンチマークでは、視覚的証拠とテキスト的証拠の衝突を見落としている。
多様なマルチモーダル検索設定にまたがる2,775個のサンプルのベンチマークであるVLM-DeflectionBenchを紹介する。
私たちの結果は、モデルが知っていることだけでなく、そうでないときにどのように振る舞うかを評価する必要性を強調します。
論文 参考訳(メタデータ) (2026-04-13T20:22:22Z) - V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval [32.5242219186118]
本稿では,視覚検査に基づくエージェント推論プロセスとしてマルチモーダル検索を再構成するエビデンス駆動検索フレームワークであるV-Retrverを提案する。
V-Retrverは、MLLMが外部視覚ツールを介して推論中に視覚的エビデンスを選択的に取得し、仮説生成と対象の視覚的検証を交互に行うマルチモーダル・インターリーブド推論プロセスを実行することを可能にする。
論文 参考訳(メタデータ) (2026-02-05T18:59:21Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - What Works for 'Lost-in-the-Middle' in LLMs? A Study on GM-Extract and Mitigations [1.2879523047871226]
GM-Extract は制御変数の検索において LLM 性能を評価するために慎重に設計された新しいベンチマークデータセットである。
2つのマルチドキュメントタスク(キー値抽出と質問応答)における7-8Bパラメータモデルの体系的評価を行う。
明瞭なU字曲線は一貫して観測されなかったが,本研究では,モデル間での明らかな性能パターンを明らかにした。
論文 参考訳(メタデータ) (2025-11-17T20:50:50Z) - Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLM [53.05486269607166]
マルチモーダルな大言語モデル (MLLM) はベンチマーク間で大幅に性能が向上した。
マルチモーダルデータ複雑性とマルチフェーズトレーニングのため,既存のLLM検出手法はMLLMでは不十分である。
我々は分析フレームワークMM-Detectを用いてマルチモーダルデータの汚染を分析する。
論文 参考訳(メタデータ) (2024-11-06T10:44:15Z) - DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。
優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-16T06:33:26Z) - Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - Multimodal Misinformation Detection using Large Vision-Language Models [7.505532091249881]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。
誤情報検出の一部として証拠検索を考えるアプローチはほとんどない。
マルチモーダルエビデンス検索のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T13:57:11Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Progressive Evidence Refinement for Open-domain Multimodal Retrieval
Question Answering [20.59485758381809]
現在のマルチモーダル検索質問答えモデルは2つの大きな課題に直面している。
モデルへの入力として圧縮されたエビデンスの特徴を利用すると、エビデンス内の詳細な情報が失われる。
本稿では,これらの問題を緩和するための証拠検索と質問応答のための2段階の枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-15T01:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。