論文の概要: Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching
- arxiv url: http://arxiv.org/abs/2002.08510v1
- Date: Thu, 20 Feb 2020 00:51:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 07:43:33.922688
- Title: Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching
- Title(参考訳): 言葉のようにオブジェクトを表現する: 画像テキストマッチングのための繰り返しビジュアル埋め込み
- Authors: Tianlang Chen, Jiebo Luo
- Abstract要約: 既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
- 参考スコア(独自算出の注目度): 102.62343739435289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing image-text matching approaches typically infer the similarity of an
image-text pair by capturing and aggregating the affinities between the text
and each independent object of the image. However, they ignore the connections
between the objects that are semantically related. These objects may
collectively determine whether the image corresponds to a text or not. To
address this problem, we propose a Dual Path Recurrent Neural Network (DP-RNN)
which processes images and sentences symmetrically by recurrent neural networks
(RNN). In particular, given an input image-text pair, our model reorders the
image objects based on the positions of their most related words in the text.
In the same way as extracting the hidden features from word embeddings, the
model leverages RNN to extract high-level object features from the reordered
object inputs. We validate that the high-level object features contain useful
joint information of semantically related objects, which benefit the retrieval
task. To compute the image-text similarity, we incorporate a Multi-attention
Cross Matching Model into DP-RNN. It aggregates the affinity between objects
and words with cross-modality guided attention and self-attention. Our model
achieves the state-of-the-art performance on Flickr30K dataset and competitive
performance on MS-COCO dataset. Extensive experiments demonstrate the
effectiveness of our model.
- Abstract(参考訳): 既存の画像テキストマッチングアプローチは、通常、画像のテキストと独立したオブジェクト間の親和性をキャプチャして集約することで、画像テキストペアの類似性を推測する。
しかし、意味的に関連しているオブジェクト間の接続を無視する。
これらのオブジェクトは、画像がテキストに対応するかどうかをまとめて判断することができる。
この問題に対処するために, 画像と文をRNN(Recurrent Neural Network)により対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
特に,入力された画像とテキストのペアが与えられた場合,最も関連性の高い単語の位置に基づいて画像オブジェクトを並べ替える。
単語埋め込みから隠れた特徴を抽出するのと同じように、モデルはrnnを利用して再順序付けされたオブジェクト入力から高レベルなオブジェクト特徴を抽出する。
我々は,高レベルオブジェクトの特徴が意味的関連オブジェクトの有用な結合情報を含んでいることを検証する。
画像とテキストの類似性を計算するために,マルチアテンション・クロスマッチング・モデルをDP-RNNに組み込む。
オブジェクトと単語間の親和性を、モダリティに導かれた注意と自己注意で集約する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
大規模な実験は、我々のモデルの有効性を実証する。
関連論文リスト
- ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval [89.30660533051514]
クロスモーダル検索は、クエリ画像に最もよくマッチするテキストのデータベースを検索するのに好まれるツールである。
画像テキスト検索モデルは通常、頻繁なオブジェクト共起など、トレーニングデータに刺激的な相関関係を学習する。
ODmAP@kは,モデルのロバスト性を測定するオブジェクトデコリレーション・メトリックであり,トレーニングデータに刺激的な相関関係を示す。
論文 参考訳(メタデータ) (2023-04-06T21:45:46Z) - Relationformer: A Unified Framework for Image-to-Graph Generation [18.832626244362075]
この研究は、オブジェクトとその関係を共同で予測する一段階トランスフォーマーベースの統合フレームワークであるRelationformerを提案する。
我々は、直接セットベースのオブジェクト予測を活用し、オブジェクト間の相互作用を取り入れて、オブジェクト関係表現を共同で学習する。
複数、多種多様な、複数ドメインのデータセット上で、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-19T00:36:59Z) - Compositional Sketch Search [91.84489055347585]
フリーハンドスケッチを用いて画像コレクションを検索するアルゴリズムを提案する。
シーン構成全体を特定するための簡潔で直感的な表現として描画を利用する。
論文 参考訳(メタデータ) (2021-06-15T09:38:09Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z) - Fixed-size Objects Encoding for Visual Relationship Detection [16.339394922532282]
本稿では,視覚的関係検出タスクの性能向上のための固定サイズオブジェクト符号化法(FOE-VRD)を提案する。
1つの固定サイズのベクトルを用いて、各入力画像中の全てのオブジェクトを符号化し、関係検出のプロセスを支援する。
VRDデータベースの実験結果から,提案手法は述語分類と関係検出の両方に有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-29T14:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。