論文の概要: SAVER: Selective As-Needed Vision Evidence for Multimodal Information Extraction
- arxiv url: http://arxiv.org/abs/2605.20713v1
- Date: Wed, 20 May 2026 05:10:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.484578
- Title: SAVER: Selective As-Needed Vision Evidence for Multimodal Information Extraction
- Title(参考訳): SAVER:マルチモーダル情報抽出のための選択的アセット・ビジョン・エビデンス
- Authors: Miaobo Hu, Shuhao Hu, Bokun Wang, Rui Chen, Xin Wang, Xiaobo Guo, Daren Zha, Jun Xiao,
- Abstract要約: ソーシャルメディアにおけるマルチモーダルIEは、投稿がテキストに関して弱い関連性、冗長性、あるいは誤解を招く複数のイメージを添付する可能性があるため、難しい。
マルチモーダルなエンティティ認識と多モーダルな関係抽出のためのフレームワークであるSAVERを提案する。
実験の結果、SAVERは強いテキストのみのベースラインと常時オンのマルチモーダルベースラインよりも一貫してF1を改善している。
- 参考スコア(独自算出の注目度): 23.835119696596095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal IE in social media is difficult because a post may attach multiple images that are weakly related, redundant, or even misleading with respect to the text. In this setting, always-on multimodal fusion wastes computation and can amplify spurious visual cues. The core challenge is to decide, for each candidate span or marked entity pair, whether vision should be consulted at all and, if so, which small subset of images provides trustworthy evidence. We propose SAVER, a selective vision-as-needed framework for multimodal named entity recognition and multimodal relation extraction. SAVER uses a Conformal Groundability Gate (CGG) to estimate span-level visual groundability in MNER, derive pair-level activation in MRE from the two marked entities, and calibrate the activation threshold on a held-out split via a conformal-style procedure with Clopper--Pearson upper bounds. When activated, a submodular relevance--diversity selector chooses a compact evidence subset across images, which is then aggregated by a Set Transformer. An energy-inspired joint scoring head combines text, optional visual evidence, text--image consistency, and sparse routing for entity typing or relation classification. Experiments show that SAVER consistently improves F1 over strong text-only and always-on multimodal baselines, while reducing AURC, increasing activation coverage at a fixed risk level, and lowering FLOPs and P90 latency.
- Abstract(参考訳): ソーシャルメディアにおけるマルチモーダルIEは、投稿がテキストに関して弱い関連性、冗長性、あるいは誤解を招く複数のイメージを添付する可能性があるため、難しい。
この設定では、常時オンのマルチモーダル核融合は計算を無駄にし、刺激的な視覚的手がかりを増幅することができる。
主な課題は、各候補が対象であるか、またはマークされたエンティティペアに対して、ビジョンを全く相談すべきかどうかを決定し、もしそうであれば、どの小さな画像のサブセットが信頼できる証拠を提供するかを決定することである。
マルチモーダルなエンティティ認識と多モーダルな関係抽出のための選択型視覚支援フレームワークであるSAVERを提案する。
SAVERはコンフォーマルグラウンドビリティゲート(CGG)を使用して、2つのマークされたエンティティからMREのペアレベルのアクティベーションを推定し、Cropper-Pearson上界を持つコンフォーマルスタイルのプロシージャを介してホールドアウトスプリット上のアクティベーションしきい値をキャリブレーションする。
エネルギーにインスパイアされたジョイントスコアリングヘッドは、テキスト、オプションの視覚的エビデンス、テキストイメージの一貫性、エンティティタイピングや関係分類のためのスパースルーティングを組み合わせたものだ。
実験によると、SAVERは強いテキストのみと常時オンのマルチモーダルベースラインよりも一貫してF1を改善し、AURCを低減し、一定のリスクレベルでアクティベーションカバレッジを向上し、FLOPとP90レイテンシを低下させる。
関連論文リスト
- MCoT-MVS: Multi-level Vision Selection by Multi-modal Chain-of-Thought Reasoning for Composed Image Retrieval [23.52156477012636]
Composed Image Retrieval (CIR) は、参照画像と修正されたテキストに基づいてターゲット画像を取得することを目的としている。
CIRのためのMCoT-MVS(Multi-level Vision Selection)を提案する。
論文 参考訳(メタデータ) (2026-03-18T04:49:19Z) - Towards Generalized Multi-Image Editing for Unified Multimodal Models [56.620038824933566]
統一マルチモーダルモデル(UMM)は、マルチモーダル理解と生成を統合する。
UMMは、複数の入力画像にまたがる詳細を参照する場合、視覚的一貫性の維持と視覚的手がかりの曖昧さに制限される。
画像の同一性を明確に識別し、可変入力数に一般化するUMMのためのスケーラブルなマルチイメージ編集フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-09T06:42:49Z) - Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。
パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文 参考訳(メタデータ) (2025-12-08T05:04:54Z) - Enhancing Multimodal Recommendations with Vision-Language Models and Information-Aware Fusion [11.914081442317494]
VIRALは、Vision-Language and Information-Aware Recommendationフレームワークである。
意味的に整合した画像表現のための、きめ細かいタイトル誘導記述を生成する。
3つのAmazonデータセットの実験によると、VIRALは強いマルチモーダルベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-03T23:01:27Z) - Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。
VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。
ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文 参考訳(メタデータ) (2025-10-21T14:59:29Z) - OTCR: Optimal Transmission, Compression and Representation for Multimodal Information Extraction [4.245267787339966]
マルチモーダル情報抽出(MIE)では、視覚的にリッチな文書からテキストや視覚的手がかりを抽出する必要がある。
この研究は、文書AIにおける制御可能なマルチモーダル融合のための解釈可能な情報理論パラダイムを提供する。
論文 参考訳(メタデータ) (2025-09-17T07:39:46Z) - CLAMP: Contrastive Learning with Adaptive Multi-loss and Progressive Fusion for Multimodal Aspect-Based Sentiment Analysis [0.6961946145048322]
本稿では,Adaptive Multi-lossとProgressive Attention Fusionを用いた,エンドツーエンドのコントラスト学習フレームワークを提案する。
このフレームワークは、Progressive Attention Fusion Network、Multi-task Contrastive Learning、Adaptive Multi-loss Aggregationの3つの新しいモジュールで構成されている。
標準の公開ベンチマークによる評価は、CLAMPが既存の最先端技術よりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2025-07-21T11:49:57Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。