論文の概要: Multi-Perspective Evidence Synthesis and Reasoning for Unsupervised Multimodal Entity Linking
- arxiv url: http://arxiv.org/abs/2604.20283v1
- Date: Wed, 22 Apr 2026 07:30:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.016286
- Title: Multi-Perspective Evidence Synthesis and Reasoning for Unsupervised Multimodal Entity Linking
- Title(参考訳): 教師なしマルチモーダルエンティティリンクのためのマルチパースペクティブエビデンス合成と推論
- Authors: Mo Zhou, Jianwei Wang, Kai Wang, Helen Paik, Ying Zhang, Wenjie Zhang,
- Abstract要約: マルチモーダル・エンティティ・リンク(MEL)は、知識ベースにおける多モーダル・エンティティに多様なモダリティで曖昧な言及をマッピングするデータ管理の基本的なタスクである。
MSR-MELは,マルチパースペクティブなエビデンス合成・推論フレームワークであり,Large Language Models (LLMs) を用いた教師なしMELを提案する。
- 参考スコア(独自算出の注目度): 22.2668894000344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Entity Linking (MEL) is a fundamental task in data management that maps ambiguous mentions with diverse modalities to the multimodal entities in a knowledge base. However, most existing MEL approaches primarily focus on optimizing instance-centric features and evidence, leaving broader forms of evidence and their intricate interdependencies insufficiently explored. Motivated by the observation that human expert decision-making process relies on multi-perspective judgment, in this work, we propose MSR-MEL, a Multi-perspective Evidence Synthesis and Reasoning framework with Large Language Models (LLMs) for unsupervised MEL. Specifically, we adopt a two-stage framework: (1) Offline Multi-Perspective Evidence Synthesis constructs a comprehensive set of evidence. This includes instance-centric evidence capturing the instance-centric multimodal information of mentions and entities, group-level evidence that aggregates neighborhood information, lexical evidence based on string overlap ratio, and statistical evidence based on simple summary statistics. A core contribution of our framework is the synthesis of group-level evidence, which effectively aggregates vital neighborhood information by graph. We first construct LLM-enhanced contextualized graphs. Subsequently, different modalities are jointly aligned through an asymmetric teacher-student graph neural network. (2) Online Multi-Perspective Evidence Reasoning leverages the power of LLM as a reasoning module to analyze the correlation and semantics of the multi-perspective evidence to induce an effective ranking strategy for accurate entity linking without supervision. Extensive experiments on widely used MEL benchmarks demonstrate that MSR-MEL consistently outperforms state-of-the-art unsupervised methods. The source code of this paper was available at: https://anonymous.4open.science/r/MSR-MEL-C21E/.
- Abstract(参考訳): マルチモーダル・エンティティ・リンク(MEL)は、知識ベースにおける多モーダル・エンティティに多様なモダリティで曖昧な言及をマッピングするデータ管理の基本的なタスクである。
しかし、既存のMELアプローチのほとんどは、主にインスタンス中心の特徴とエビデンスを最適化することに重点を置いており、より広範な証拠形態と複雑な相互依存を十分に探求したままである。
人間の専門家による意思決定プロセスが多視点的判断に依存しているという観察に触発され,MSR-MELという多視点的エビデンス合成・推論フレームワークを,教師なしのMELに対して提案する。
具体的には,(1)オフライン多視点エビデンス合成は包括的証拠集合を構成する。
これには、参照やエンティティのインスタンス中心のマルチモーダル情報を取得するインスタンス中心のエビデンス、近隣情報を集約するグループレベルエビデンス、文字列重複率に基づく語彙的エビデンス、単純な要約統計に基づく統計的エビデンスが含まれる。
我々のフレームワークの中核となる貢献は、グループレベルの証拠の合成であり、グラフによって重要な近隣情報を効果的に集約する。
まず、LLMを拡張した文脈化グラフを構築する。
その後、異なるモダリティが非対称な教師-学生グラフニューラルネットワークを介して協調的に整列される。
2) オンラインマルチパースペクティブ・エビデンス・推論は, LLMを推論モジュールとして活用し, 多パースペクティブ・エビデンスの相関や意味を分析し, 監督なしで正確なエンティティ・リンクの効果的なランキング戦略を導出する。
広く使われているMELベンチマークの大規模な実験により、MSR-MELは最先端の教師なし手法よりも一貫して優れていることが示された。
本論文のソースコードは、https://anonymous.4open.science/r/MSR-MEL-C21E/で公開されている。
関連論文リスト
- MISID: A Multimodal Multi-turn Dataset for Complex Intent Recognition in Strategic Deception Games [7.184720967960135]
マルチターンインタラクションにおける意図認識のための総合ベンチマークMISIDを紹介する。
ハイテイクなソーシャルストラテジーゲームから派生したMISIDは、長文の談話分析とエビデンスに基づく因果追跡に適した、きめ細かい2次元の多次元アノテーションスキームを特徴としている。
MISIDにおける最先端マルチモーダル言語モデル (MLLM) の体系的評価により, テキスト優先視覚幻覚, クロスモーダルシナジーの障害, 連鎖型因果的手がかりの制限など, 複雑なシナリオにおける重要な欠陥が明らかとなった。
論文 参考訳(メタデータ) (2026-04-14T13:07:54Z) - Orthogonalized Multimodal Contrastive Learning with Asymmetric Masking for Structured Representations [4.67724003380452]
マルチモーダル学習は異種情報源からの情報を統合することを目的としており、そこでは信号はモダリティ間で共有され、個々のモダリティに特有であり、相互作用を通してのみ現れる。
自己教師型マルチモーダルコントラスト学習は目覚ましい進歩を遂げてきたが、既存の手法のほとんどは冗長なクロスモーダル信号を捉え、しばしばモダリティ固有の(一意的な)情報や相互作用駆動の(シネルジスティックな)情報を無視している。
最近の拡張は、この視点を広げるが、それらは相乗的相互作用を明示的にモデル化したり、異なる情報コンポーネントを絡み合った方法で学習することに失敗し、不完全な表現と潜在的な情報漏洩につながる。
基本的枠組みである textbfCOrAL を導入する。
論文 参考訳(メタデータ) (2026-02-16T18:06:53Z) - Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition [51.68340973140949]
GMNER(Multimodal Named Entity Recognition)は、テキストベースのエンティティを抽出し、セマンティックカテゴリを割り当て、それらを対応する視覚領域に接地することを目的としている。
MLLMは、視覚バイアスやテキストバイアスを含む$textbfmodality bias$を示す。
本稿では,モダリティを考慮した一貫性推論(bfMCR$)を提案する。
論文 参考訳(メタデータ) (2026-02-04T12:12:49Z) - Format Matters: The Robustness of Multimodal LLMs in Reviewing Evidence from Tables and Charts [19.571644726057666]
我々は,表と表の両方を証拠として科学的クレームを検証するマルチモーダルな大規模言語モデルの能力を評価する実験を設計し,実施する。
この適応したデータセットを用いて、12個のマルチモーダルLCMを評価し、グラフベースのエビデンスに苦慮しながら、現在のモデルがテーブルベースのエビデンスでより良い性能を発揮することを発見した。
また,より小さなマルチモーダル LLM (8B以下) では,テーブルベースタスクとチャートベースタスクのパフォーマンスの相関が低く,クロスモーダル一般化の制限が示されている。
論文 参考訳(メタデータ) (2025-11-13T08:29:47Z) - Structured and Abstractive Reasoning on Multi-modal Relational Knowledge Images [58.553448128258566]
本稿では,大規模高品質データと能力向上手法の二重ギャップを橋渡しする。
我々は、64Kの高品質なマルチモーダル命令サンプルからなるデータセットSTAR-64Kを導入し、5つのオープンソースMLLMに対して実験を行う。
論文 参考訳(メタデータ) (2025-10-22T02:23:40Z) - Revealing Multimodal Causality with Large Language Models [80.95511545591107]
非構造化データからマルチモーダル因果発見のための新しいフレームワークであるMLLM-CDを提案する。
本研究は,(1)真のマルチモーダル因子を同定する新しいコントラッシブ・ファクター発見モジュール,(2)発見要因間の因果関係を推測する統計的因果構造発見モジュール,(3)発見結果を洗練するための反復的マルチモーダル・カウンターファクト・推論モジュールの3つの重要な構成要素から構成される。
合成と実世界の両方のデータセットに対する大規模な実験は、提案したMLLM-CDの有効性を実証している。
論文 参考訳(メタデータ) (2025-09-22T13:45:17Z) - Unstructured Evidence Attribution for Long Context Query Focused Summarization [53.08341620504465]
固定粒度の場合よりも、より関連性が高く一貫した証拠を得るために、非構造的(すなわち任意の長さのスパン)な証拠を抽出することを提案する。
既存のシステムが、非構造的証拠をコピーし、適切に引用するのにどのように苦労しているかを示す。
論文 参考訳(メタデータ) (2025-02-20T09:57:42Z) - Multimodal Misinformation Detection using Large Vision-Language Models [7.505532091249881]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。
誤情報検出の一部として証拠検索を考えるアプローチはほとんどない。
マルチモーダルエビデンス検索のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T13:57:11Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。