論文の概要: Learning Image-Text Matching with Optimal Partial Transport
- arxiv url: http://arxiv.org/abs/2603.14349v1
- Date: Sun, 15 Mar 2026 12:31:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.763998
- Title: Learning Image-Text Matching with Optimal Partial Transport
- Title(参考訳): 最適部分移動を用いた画像テキストマッチングの学習
- Authors: Zhengxin Pan, Haishuai Wang, Fangyu Wu, Bailing Zhang, Jiajun Bu, Hongyang Chen,
- Abstract要約: 視覚と言語をブリッジする基本的なタスクであるクロスモーダルマッチングは、最近、かなりの研究の関心を集めている。
本稿では,crOss-Modal sInkhorn Matchingネットワークを有効解として提案する。
我々は、Flickr30KとMS-COCOという2つのベンチマーク画像テキスト検索データセット上で、OMITを広範囲に評価する。
- 参考スコア(独自算出の注目度): 49.656836538448054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-modal matching, a fundamental task in bridging vision and language, has recently garnered substantial research interest. Despite the development of numerous methods aimed at quantifying the semantic relatedness between image-text pairs, these methods often fall short of achieving both outstanding performance and high efficiency. In this paper, we propose the crOss-Modal sInkhorn maTching (OMIT) network as an effective solution to effectively improving performance while maintaining efficiency. Rooted in the theoretical foundations of Optimal Transport, OMIT harnesses the capabilities of Cross-modal Mover's Distance to precisely compute the similarity between fine-grained visual and textual fragments, utilizing Sinkhorn iterations for efficient approximation. To further alleviate the issue of redundant alignments, we seamlessly integrate partial matching into OMIT, leveraging local-to-global similarities to eliminate the interference of irrelevant fragments. We conduct extensive evaluations of OMIT on two benchmark image-text retrieval datasets, namely Flickr30K and MS-COCO. The superior performance achieved by OMIT on both datasets unequivocally demonstrates its effectiveness in cross-modal matching. Furthermore, through comprehensive visualization analysis, we elucidate OMIT's inherent tendency towards focal matching, thereby shedding light on its efficacy. Our code is publicly available at https://github.com/ppanzx/OMIT.
- Abstract(参考訳): 視覚と言語をブリッジする基本的なタスクであるクロスモーダルマッチングは、最近、かなりの研究の関心を集めている。
画像とテキストのペア間の意味的関連性を定量化する多くの手法が開発されているが、これらの手法は際立った性能と高い効率を達成するには不十分であることが多い。
本稿では, crOss-Modal sInkhorn Matching (OMIT) ネットワークを有効解として提案する。
OMITは最適輸送の理論的基礎に根ざし、クロスモーダル・モーバー・ディスタンス(英語版)の能力を利用して、きめ細かい視覚的断片とテキスト的断片の類似性を正確に計算し、シンクホーンの反復を効率的な近似に利用した。
冗長なアライメントの問題をさらに緩和するため、我々は部分的マッチングをOMITにシームレスに統合し、非関係な断片の干渉を排除するために、局所的・言語的類似性を活用する。
我々は、Flickr30KとMS-COCOという2つのベンチマーク画像テキスト検索データセット上で、OMITを広範囲に評価する。
OMITが両データセットで達成した優れた性能は、クロスモーダルマッチングにおけるその有効性を示している。
さらに、包括的可視化分析により、OMITの焦点マッチングに対する固有の傾向を解明し、その有効性に光を当てる。
私たちのコードはhttps://github.com/ppanzx/OMIT.comで公開されています。
関連論文リスト
- Optimal Transport Adapter Tuning for Bridging Modality Gaps in Few-Shot Remote Sensing Scene Classification [80.83325513157637]
Few-Shot Remote Sensing Scene Classification (FS-RSSC)は,限られたラベル付きサンプルを用いたリモートセンシング画像の分類の課題を示す。
理想的なプラトン表現空間を構築することを目的とした,OTAT(Optimal Transport Adapter Tuning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T07:04:24Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - SCMM: Calibrating Cross-modal Representations for Text-Based Person Search [45.24784242117999]
テキストベースPerson Search (TBPS) は、クロスモーダル情報融合において重要な課題に直面している。
SCMM(Sew and Masked Modeling)は,2つの相補的なメカニズムによってこれらの融合課題に対処する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-04-05T07:50:16Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z) - Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using
Transformer Encoders [14.634046503477979]
本稿ではTransformer Reasoning and Alignment Network(TERAN)という新しいアプローチを提案する。
TERANは、画像と文の基礎となるコンポーネント間のきめ細かい一致を強制する。
MS-COCO 1Kテストセットでは,画像と文検索タスクでそれぞれ5.7%と3.5%の改善が得られた。
論文 参考訳(メタデータ) (2020-08-12T11:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。