論文の概要: Cross-modal Semantic Enhanced Interaction for Image-Sentence Retrieval
- arxiv url: http://arxiv.org/abs/2210.08908v1
- Date: Mon, 17 Oct 2022 10:01:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 19:47:34.548023
- Title: Cross-modal Semantic Enhanced Interaction for Image-Sentence Retrieval
- Title(参考訳): 画像文検索のためのクロスモーダル・セマンティック・インタグメンテーション
- Authors: Xuri Ge, Fuhai Chen, Songpei Xu, Fuxiang Tao, Joemon M. Jose
- Abstract要約: 本稿では、画像文検索のためのCMSEIと呼ばれるクロスモーダル・セマンティック・エンハンスメント・インタラクション手法を提案する。
まず、オブジェクトの意味表現を強化するために、モーダル内およびモーダル間空間および意味グラフに基づく推論を設計する。
オブジェクトのコンテキストとテキストのコンテキストを関連付けるために,クロスレベルなオブジェクト文と単語画像に基づく対話的注意による視覚的意味表現をさらに洗練する。
- 参考スコア(独自算出の注目度): 8.855547063009828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-sentence retrieval has attracted extensive research attention in
multimedia and computer vision due to its promising application. The key issue
lies in jointly learning the visual and textual representation to accurately
estimate their similarity. To this end, the mainstream schema adopts an
object-word based attention to calculate their relevance scores and refine
their interactive representations with the attention features, which, however,
neglects the context of the object representation on the inter-object
relationship that matches the predicates in sentences. In this paper, we
propose a Cross-modal Semantic Enhanced Interaction method, termed CMSEI for
image-sentence retrieval, which correlates the intra- and inter-modal semantics
between objects and words. In particular, we first design the intra-modal
spatial and semantic graphs based reasoning to enhance the semantic
representations of objects guided by the explicit relationships of the objects'
spatial positions and their scene graph. Then the visual and textual semantic
representations are refined jointly via the inter-modal interactive attention
and the cross-modal alignment. To correlate the context of objects with the
textual context, we further refine the visual semantic representation via the
cross-level object-sentence and word-image based interactive attention.
Experimental results on seven standard evaluation metrics show that the
proposed CMSEI outperforms the state-of-the-art and the alternative approaches
on MS-COCO and Flickr30K benchmarks.
- Abstract(参考訳): 画像文検索はマルチメディアやコンピュータビジョンの分野で広く研究されている。
重要な問題は、視覚とテキストの表現を共同で学習し、それらの類似性を正確に見積もることである。
この目的のために、メインストリームスキーマは、オブジェクトワードに基づく注意力を用いて、それらの関連度スコアを算出し、それらの対話表現を注意力で洗練するが、文中の述語と一致するオブジェクト間関係におけるオブジェクト表現の文脈を無視する。
本稿では,オブジェクトと単語間のモーダル意味論を関連付けたイメージ・センス検索のためのクロスモーダルセマンティクス強化インタラクション手法cmseiを提案する。
特に,オブジェクトの空間位置とシーングラフの明示的な関係によって導かれるオブジェクトの意味表現を強化するために,モーダル内空間グラフと意味グラフに基づく推論を最初に設計する。
次に、視覚的およびテキスト的意味表現を、モーダル間対話的注意とクロスモーダルアライメントによって共同で洗練する。
オブジェクトのコンテキストとテキストのコンテキストを関連付けるために,クロスレベルなオブジェクト文と単語画像に基づく対話的注意による視覚的意味表現をさらに洗練する。
7つの標準評価指標による実験結果から,提案したCMSEIは,MS-COCOおよびFlickr30Kベンチマークにおける最先端および代替手法よりも優れていた。
関連論文リスト
- Hire: Hybrid-modal Interaction with Multiple Relational Enhancements for Image-Text Matching [7.7559623054251]
画像テキストマッチング(ITM)はコンピュータビジョンの基本的な問題である。
画像テキストマッチングのためのマルチエンハンスメント(termed textitHire)を用いたハイブリッドモーダル機能を提案する。
特に、明示的なモーダル空間意味グラフに基づく推論ネットワークは、視覚オブジェクトの文脈表現を改善するために設計されている。
論文 参考訳(メタデータ) (2024-06-05T13:10:55Z) - SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph
Attention [19.23636231942245]
設計したメモリグラフアテンション層を用いたグラフネットワークに基づくセマンティック・エンハンスド・リレーショナル学習モデルを提案する。
本手法は,従来の言語に依存しないエンコーディングを,視覚解析におけるクロスモーダルエンコーディングに置き換える。
ReferIt3D と ScanRefer のベンチマーク実験の結果,提案手法は既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-13T02:11:04Z) - SceneGATE: Scene-Graph based co-Attention networks for TExt visual
question answering [2.8974040580489198]
テキストVQAのためのScene Graphベースのコアテンションネットワーク(SceneGATE)を提案する。
対象物間の意味的関係、光学文字認識(OCR)トークンおよび質問語を明らかにする。
これはTextVQAベースのシーングラフによって実現され、画像の基盤となるセマンティクスを検出する。
論文 参考訳(メタデータ) (2022-12-16T05:10:09Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z) - Cross-Modality Relevance for Reasoning on Language and Vision [22.41781462637622]
本研究は,視覚的質問応答(VQA)や視覚的推論(NLVR)などの下流課題に対する,言語と視覚データに対する学習と推論の課題を扱う。
我々は,目的タスクの監督の下で,様々な入力モダリティのコンポーネント間の関連性表現を学習するために,エンドツーエンドフレームワークで使用される新しいクロスモーダル関連モジュールを設計する。
提案手法は,公開ベンチマークを用いた2つの異なる言語および視覚タスクの競合性能を示し,その結果を改良する。
論文 参考訳(メタデータ) (2020-05-12T20:17:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。