論文の概要: Hire: Hybrid-modal Interaction with Multiple Relational Enhancements for Image-Text Matching
- arxiv url: http://arxiv.org/abs/2406.18579v1
- Date: Wed, 5 Jun 2024 13:10:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 05:50:36.637789
- Title: Hire: Hybrid-modal Interaction with Multiple Relational Enhancements for Image-Text Matching
- Title(参考訳): Hire: 画像テキストマッチングのためのハイブリッドモーダルインタラクションとマルチリレーショナルエンハンスメント
- Authors: Xuri Ge, Fuhai Chen, Songpei Xu, Fuxiang Tao, Jie Wang, Joemon M. Jose,
- Abstract要約: 画像テキストマッチング(ITM)はコンピュータビジョンの基本的な問題である。
画像テキストマッチングのためのマルチエンハンスメント(termed textitHire)を用いたハイブリッドモーダル機能を提案する。
特に、明示的なモーダル空間意味グラフに基づく推論ネットワークは、視覚オブジェクトの文脈表現を改善するために設計されている。
- 参考スコア(独自算出の注目度): 7.7559623054251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-text matching (ITM) is a fundamental problem in computer vision. The key issue lies in jointly learning the visual and textual representation to estimate their similarity accurately. Most existing methods focus on feature enhancement within modality or feature interaction across modalities, which, however, neglects the contextual information of the object representation based on the inter-object relationships that match the corresponding sentences with rich contextual semantics. In this paper, we propose a Hybrid-modal Interaction with multiple Relational Enhancements (termed \textit{Hire}) for image-text matching, which correlates the intra- and inter-modal semantics between objects and words with implicit and explicit relationship modelling. In particular, the explicit intra-modal spatial-semantic graph-based reasoning network is designed to improve the contextual representation of visual objects with salient spatial and semantic relational connectivities, guided by the explicit relationships of the objects' spatial positions and their scene graph. We use implicit relationship modelling for potential relationship interactions before explicit modelling to improve the fault tolerance of explicit relationship detection. Then the visual and textual semantic representations are refined jointly via inter-modal interactive attention and cross-modal alignment. To correlate the context of objects with the textual context, we further refine the visual semantic representation via cross-level object-sentence and word-image-based interactive attention. Extensive experiments validate that the proposed hybrid-modal interaction with implicit and explicit modelling is more beneficial for image-text matching. And the proposed \textit{Hire} obtains new state-of-the-art results on MS-COCO and Flickr30K benchmarks.
- Abstract(参考訳): 画像テキストマッチング(ITM)はコンピュータビジョンの基本的な問題である。
重要な問題は、視覚とテキストの表現を共同で学習し、それらの類似性を正確に見積もることである。
既存のほとんどの手法は、モダリティにおける特徴強化や、モダリティ間の特徴相互作用に重点を置いているが、それにもかかわらず、対応する文とリッチな文脈意味論に一致するオブジェクト間の関係に基づいて、オブジェクト表現の文脈情報を無視している。
本稿では,オブジェクトと単語間のモーダル間セマンティクスを暗黙的および明示的関係モデリングで関連づける,画像テキストマッチングのための複合モーダルインタラクションとマルチリレーショナルエンハンスメント(termed \textit{Hire})を提案する。
特に、明示的なモーダル空間意味グラフに基づく推論ネットワークは、オブジェクトの空間位置とシーングラフの明示的な関係によって導かれる、空間的および意味的な関係性を持つ視覚オブジェクトの文脈的表現を改善するように設計されている。
我々は、明示的な関係検出の耐障害性を改善するために、明示的なモデリングの前に潜在的な関係の相互作用に暗黙的な関係のモデリングを用いる。
そして、視覚的およびテキスト的意味表現は、モーダル間対話的注意とモーダル間アライメントによって共同で洗練される。
オブジェクトのコンテキストとテキストのコンテキストを関連付けるため、クロスレベルなオブジェクト文と単語画像に基づく対話的注意による視覚的意味表現をさらに洗練する。
広汎な実験により、暗黙的および明示的なモデリングとのハイブリッド・モーダル相互作用が画像テキストマッチングにおいてより有益であることが検証された。
提案した‘textit{Hire} は MS-COCO と Flickr30K のベンチマークで新しい最先端結果を得る。
関連論文リスト
- SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph
Attention [19.23636231942245]
設計したメモリグラフアテンション層を用いたグラフネットワークに基づくセマンティック・エンハンスド・リレーショナル学習モデルを提案する。
本手法は,従来の言語に依存しないエンコーディングを,視覚解析におけるクロスモーダルエンコーディングに置き換える。
ReferIt3D と ScanRefer のベンチマーク実験の結果,提案手法は既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-13T02:11:04Z) - Dual Relation Alignment for Composed Image Retrieval [24.812654620141778]
合成画像検索における2種類の関係性の存在を論じる。
明示的な関係は、参照画像と補完テキストターゲット画像に関連する。
本稿では,合成画像検索のための新たな枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-05T12:16:14Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z) - Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。
ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。
提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2023-03-22T12:11:59Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Cross-modal Semantic Enhanced Interaction for Image-Sentence Retrieval [8.855547063009828]
本稿では、画像文検索のためのCMSEIと呼ばれるクロスモーダル・セマンティック・エンハンスメント・インタラクション手法を提案する。
まず、オブジェクトの意味表現を強化するために、モーダル内およびモーダル間空間および意味グラフに基づく推論を設計する。
オブジェクトのコンテキストとテキストのコンテキストを関連付けるために,クロスレベルなオブジェクト文と単語画像に基づく対話的注意による視覚的意味表現をさらに洗練する。
論文 参考訳(メタデータ) (2022-10-17T10:01:16Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Cross-Modal Coherence for Text-to-Image Retrieval [35.82045187976062]
我々はテキスト・ツー・イメージ検索タスクに対して,クロスモーダル・コヒーレンス・モデル(Cross-Modal Coherence Model)を訓練する。
画像・テキスト・コヒーレンス関係を訓練したモデルでは,コヒーレンス・コヒーレンス・コヒーレンス・コヒーレンス・コヒーレンス・モデルよりも,元来ターゲットテキストとペアリングした画像の検索が可能であった。
本研究は,テキストや画像のコモンセンス推論を捉える上で,異なるモダリティがコミュニケーションする方法,コヒーレンス関係の役割について考察した。
論文 参考訳(メタデータ) (2021-09-22T21:31:27Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。