論文の概要: Enhancing Multimodal Retrieval via Complementary Information Extraction and Alignment
- arxiv url: http://arxiv.org/abs/2601.04571v1
- Date: Thu, 08 Jan 2026 04:02:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.028622
- Title: Enhancing Multimodal Retrieval via Complementary Information Extraction and Alignment
- Title(参考訳): 補完情報抽出とアライメントによるマルチモーダル検索の強化
- Authors: Delong Zeng, Yuexiang Xie, Yaliang Li, Ying Shen,
- Abstract要約: 文書中のテキストと画像の両方を統一された潜在空間に変換する,新しいマルチモーダル検索手法であるCIEAを提案する。
2つの相補的コントラスト損失を用いてCIEAを最適化し、セマンティックな整合性を確保し、画像に含まれる相補的情報を効果的にキャプチャする。
- 参考スコア(独自算出の注目度): 51.96615529872665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal retrieval has emerged as a promising yet challenging research direction in recent years. Most existing studies in multimodal retrieval focus on capturing information in multimodal data that is similar to their paired texts, but often ignores the complementary information contained in multimodal data. In this study, we propose CIEA, a novel multimodal retrieval approach that employs Complementary Information Extraction and Alignment, which transforms both text and images in documents into a unified latent space and features a complementary information extractor designed to identify and preserve differences in the image representations. We optimize CIEA using two complementary contrastive losses to ensure semantic integrity and effectively capture the complementary information contained in images. Extensive experiments demonstrate the effectiveness of CIEA, which achieves significant improvements over both divide-and-conquer models and universal dense retrieval models. We provide an ablation study, further discussions, and case studies to highlight the advancements achieved by CIEA. To promote further research in the community, we have released the source code at https://github.com/zengdlong/CIEA.
- Abstract(参考訳): マルチモーダル検索は近年,有望だが挑戦的な研究方向として浮上している。
マルチモーダル検索における既存の研究は、ペア化されたテキストと似ているが、多モーダルデータに含まれる補完的な情報を無視することが多いマルチモーダルデータにおける情報収集に重点を置いている。
本研究では,文書中のテキストと画像が一体化された潜在空間に変換され,画像表現の差分を識別・保存する補完的情報抽出器を特徴とする,補完的情報抽出とアライメントを用いた新しいマルチモーダル検索手法であるCIEAを提案する。
2つの相補的コントラスト損失を用いてCIEAを最適化し、セマンティックな整合性を確保し、画像に含まれる相補的情報を効果的にキャプチャする。
広汎な実験によりCIEAの有効性が示され、この実験は分割・対数モデルと一般密度検索モデルの両方よりも大幅に改善されている。
我々は、CIEAが達成した進歩を強調するために、アブレーション研究、さらなる議論、ケーススタディを提供する。
コミュニティにおけるさらなる研究を促進するため、私たちはhttps://github.com/zengdlong/CIEA.comでソースコードをリリースしました。
関連論文リスト
- A Survey of Multimodal Composite Editing and Retrieval [7.966265020507201]
この調査は、マルチモーダル複合検索に関する文献の総合的なレビューとしては初めてである。
画像テキスト合成編集、画像テキスト合成検索、その他のマルチモーダル合成検索をカバーしている。
アプリケーションシナリオ、メソッド、ベンチマーク、実験、将来の方向性を体系的に整理します。
論文 参考訳(メタデータ) (2024-09-09T08:06:50Z) - Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。
以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-08-16T16:14:36Z) - Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual
World Knowledge [73.76722241704488]
大規模視覚言語モデル(LVLM)から引き起こされる文脈的世界知識を利用してマルチモーダル感情分析を行うプラグインフレームワークWisdoMを提案する。
我々の手法は、いくつかの最先端手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-01-12T16:08:07Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Multimodal Deep Learning for Scientific Imaging Interpretation [0.0]
本研究では,SEM(Scanning Electron Microscopy)画像と人間のような相互作用を言語的にエミュレートし,評価するための新しい手法を提案する。
本稿では,ピアレビュー記事から収集したテキストデータとビジュアルデータの両方から洞察を抽出する。
我々のモデル (GlassLLaVA) は, 正確な解釈, 重要な特徴の同定, 未確認のSEM画像の欠陥の検出に優れる。
論文 参考訳(メタデータ) (2023-09-21T20:09:22Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。