論文の概要: I2CR: Intra- and Inter-modal Collaborative Reflections for Multimodal Entity Linking
- arxiv url: http://arxiv.org/abs/2508.02243v1
- Date: Mon, 04 Aug 2025 09:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.276756
- Title: I2CR: Intra- and Inter-modal Collaborative Reflections for Multimodal Entity Linking
- Title(参考訳): I2CR:マルチモーダルエンティティリンクのためのモーダル内およびモーダル間協調反射
- Authors: Ziyan Liu, Junwen Li, Kaiwen Li, Tong Ruan, Chao Wang, Xinyan He, Zongyu Wang, Xuezhi Cao, Jingping Liu,
- Abstract要約: モーダル内およびモーダル間協調反射という,マルチモーダルなエンティティリンクタスクのための新しいフレームワークを提案する。
我々のフレームワークは、タスクにおける現在の最先端メソッドを一貫して上回り、それぞれ3.2%、5.1%、および1.6%の改善を実現しています。
- 参考スコア(独自算出の注目度): 8.758773321492809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal entity linking plays a crucial role in a wide range of applications. Recent advances in large language model-based methods have become the dominant paradigm for this task, effectively leveraging both textual and visual modalities to enhance performance. Despite their success, these methods still face two challenges, including unnecessary incorporation of image data in certain scenarios and the reliance only on a one-time extraction of visual features, which can undermine their effectiveness and accuracy. To address these challenges, we propose a novel LLM-based framework for the multimodal entity linking task, called Intra- and Inter-modal Collaborative Reflections. This framework prioritizes leveraging text information to address the task. When text alone is insufficient to link the correct entity through intra- and inter-modality evaluations, it employs a multi-round iterative strategy that integrates key visual clues from various aspects of the image to support reasoning and enhance matching accuracy. Extensive experiments on three widely used public datasets demonstrate that our framework consistently outperforms current state-of-the-art methods in the task, achieving improvements of 3.2%, 5.1%, and 1.6%, respectively. Our code is available at https://github.com/ziyan-xiaoyu/I2CR/.
- Abstract(参考訳): マルチモーダル・エンティティ・リンクは幅広いアプリケーションにおいて重要な役割を果たす。
近年の大規模言語モデルに基づく手法の進歩は,テキストと視覚の両方を効果的に活用し,性能向上に寄与している。
それらの成功にもかかわらず、これらの手法は、特定のシナリオにおける画像データの不要な取り込みや、その有効性と正確性を損なう1回の視覚的特徴の抽出にのみ依存するという2つの課題に直面している。
これらの課題に対処するため、我々は、インターモーダル・コラボレーティブ・リフレクションと呼ばれるマルチモーダル・エンティティ・リンク・タスクのための新しいLCMベースのフレームワークを提案する。
このフレームワークは、タスクに対処するためにテキスト情報を活用することを優先する。
テキストだけでは、モダリティ内およびモダリティ間評価を通じて正しいエンティティをリンクできない場合、画像の様々な側面から重要な視覚的手がかりを統合するマルチラウンド反復戦略を用いて、推論をサポートし、マッチング精度を向上させる。
広く使われている3つの公開データセットに対する大規模な実験により、我々のフレームワークはタスクにおける現在の最先端メソッドを一貫して上回り、それぞれ3.2%、5.1%、および1.6%の改善を達成した。
私たちのコードはhttps://github.com/ziyan-xiaoyu/I2CR/で利用可能です。
関連論文リスト
- True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。
現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。
視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文 参考訳(メタデータ) (2025-07-21T17:08:18Z) - RoRA-VLM: Robust Retrieval-Augmented Vision Language Models [41.09545760534495]
RORA-VLMは、視覚言語モデルに特化して設計された、新規で堅牢な検索拡張フレームワークである。
提案手法の有効性とロバスト性を,広く採用されている3つのベンチマークデータセット上で検証する。
論文 参考訳(メタデータ) (2024-10-11T14:51:00Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - Hierarchical Aligned Multimodal Learning for NER on Tweet Posts [12.632808712127291]
マルチモーダルなエンティティ認識(MNER)が注目されている。
画像とテキストのシーケンスを動的に調整する新しい手法を提案する。
2つのオープンデータセットで実験を行い、その結果と詳細な分析により、我々のモデルの利点を実証した。
論文 参考訳(メタデータ) (2023-05-15T06:14:36Z) - Probing Visual-Audio Representation for Video Highlight Detection via
Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。
本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。
コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文 参考訳(メタデータ) (2022-06-21T07:29:37Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。