論文の概要: VITR: Augmenting Vision Transformers with Relation-Focused Learning for
Cross-Modal Information Retrieval
- arxiv url: http://arxiv.org/abs/2302.06350v3
- Date: Thu, 27 Jul 2023 21:48:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 16:22:00.549947
- Title: VITR: Augmenting Vision Transformers with Relation-Focused Learning for
Cross-Modal Information Retrieval
- Title(参考訳): VITR:クロスモーダル情報検索のための関係焦点学習による視覚変換器の拡張
- Authors: Yan Gong, Georgina Cosma, and Axel Finke
- Abstract要約: 本稿では、視覚変換器(ViT)を画像領域の関係を抽出し、推論することによって拡張する新しいネットワークであるVITRを紹介する。
ViTRは、画像と記述間の類似点を予測するために、理由付けされた結果とグローバル知識を組み合わせた融合モジュールを組み込んでいる。
- 参考スコア(独自算出の注目度): 0.3211619859724084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The relations expressed in user queries are vital for cross-modal information
retrieval. Relation-focused cross-modal retrieval aims to retrieve information
that corresponds to these relations, enabling effective retrieval across
different modalities. Pre-trained networks, such as Contrastive Language-Image
Pre-training (CLIP), have gained significant attention and acclaim for their
exceptional performance in various cross-modal learning tasks. However, the
Vision Transformer (ViT) used in these networks is limited in its ability to
focus on image region relations. Specifically, ViT is trained to match images
with relevant descriptions at the global level, without considering the
alignment between image regions and descriptions. This paper introduces VITR, a
novel network that enhances ViT by extracting and reasoning about image region
relations based on a local encoder. VITR is comprised of two key components.
Firstly, it extends the capabilities of ViT-based cross-modal networks by
enabling them to extract and reason with region relations present in images.
Secondly, VITR incorporates a fusion module that combines the reasoned results
with global knowledge to predict similarity scores between images and
descriptions. The proposed VITR network was evaluated through experiments on
the tasks of relation-focused cross-modal information retrieval. The results
derived from the analysis of the RefCOCOg, CLEVR, and Flickr30K datasets
demonstrated that the proposed VITR network consistently outperforms
state-of-the-art networks in image-to-text and text-to-image retrieval.
- Abstract(参考訳): ユーザクエリで表現される関係は、クロスモーダル情報検索に不可欠である。
関係に焦点をあてたクロスモーダル検索は、これらの関係に対応する情報を検索することを目的としており、異なるモダリティ間の効果的な検索を可能にする。
Contrastive Language-Image Pre-Training (CLIP) のような事前学習型ネットワークは、様々なクロスモーダル学習タスクにおける例外的な性能を高く評価している。
しかし、これらのネットワークで使用されるビジョントランスフォーマー(ViT)は、画像領域の関係にフォーカスする能力に制限がある。
特に、vitは、画像領域と記述のアライメントを考慮せずに、画像とグローバルレベルでの関連記述とをマッチングするように訓練される。
本稿では、ローカルエンコーダに基づく画像領域関係の抽出と推論により、ViTを強化する新しいネットワークであるVITRを紹介する。
VITRは2つのキーコンポーネントから構成される。
まず、画像中の領域関係を抽出し、推論できるようにすることで、ViTベースのクロスモーダルネットワークの機能を拡張する。
第2に、VITRは、画像と記述間の類似度スコアを予測するために、推論結果とグローバル知識を組み合わせた融合モジュールを組み込んでいる。
提案したVITRネットワークは,関係性に着目したクロスモーダル情報検索の課題に関する実験を通じて評価された。
refcocog, clevr, flickr30kのデータセットの解析から得られた結果は, 提案するvitrネットワークが, 画像間検索とテキスト間検索において, 最先端のネットワークを一貫して上回っていることを示している。
関連論文リスト
- PIR: Remote Sensing Image-Text Retrieval with Prior Instruction Representation Learning [21.907749083387042]
本稿では,視覚とテキスト表現の適応学習を指導するために,事前知識に基づく事前指示表現(PIR)学習パラダイムを提案する。
包括的実験により、PIRは視覚とテキスト表現を強化し、クローズドドメインとオープンドメイン検索の最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-05-16T14:53:45Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Cross-modal Orthogonal High-rank Augmentation for RGB-Event
Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。
本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。
実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文 参考訳(メタデータ) (2023-07-09T08:58:47Z) - An Interactively Reinforced Paradigm for Joint Infrared-Visible Image
Fusion and Saliency Object Detection [59.02821429555375]
この研究は、野生の隠れた物体の発見と位置決めに焦点をあて、無人のシステムに役立てる。
経験的分析により、赤外線と可視画像融合(IVIF)は、難しい物体の発見を可能にする。
マルチモーダル・サリエント・オブジェクト検出(SOD)は、画像内の物体の正確な空間的位置を正確に記述する。
論文 参考訳(メタデータ) (2023-05-17T06:48:35Z) - LSEH: Semantically Enhanced Hard Negatives for Cross-modal Information
Retrieval [0.4264192013842096]
Visual Semantic Embedding (VSE)は、画像の意味と記述を抽出し、それらを同じ潜在空間に埋め込んで情報検索を行う。
既存のほとんどのVSEネットワークは、関連する画像記述組込みペアの類似性と無関係な画像記述組込みペアの客観的なマージンを学習するハードネガティブ損失関数を採用することで訓練されている。
本稿では,(1)画像記述の基盤となるセマンティクスの発見,(2)新たなセマンティクス強化型ハードネガティブ損失関数を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:09:39Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - A Unified and Biologically-Plausible Relational Graph Representation of
Vision Transformers [11.857392812189872]
視覚変換器(ViT)とその変種は様々な視覚的タスクにおいて顕著な成功を収めた。
本稿では,ViTモデルの統一的,生物学的に証明可能な関係グラフ表現を提案する。
我々の研究は、ViT ANNのより解釈可能で効果的な表現のための、統一的で生物学的に証明可能な新しいパラダイムを提供する。
論文 参考訳(メタデータ) (2022-05-20T05:53:23Z) - Visual Spatio-temporal Relation-enhanced Network for Cross-modal
Text-Video Retrieval [17.443195531553474]
テキストとビデオのクロスモーダル検索は、視覚と言語との対応を理解することを目的としている。
本稿では,時間横断検索フレームワークであるVisual S-temporal Relation-enhanced semantic network (CNN-SRNet)を提案する。
MSR-VTTおよびMSVDデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-10-29T08:23:40Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Tensor Composition Net for Visual Relationship Prediction [115.14829858763399]
画像の視覚的関係を予測するための新しいコンポジションネットワーク(TCN)を提案する。
TCNの鍵となる考え方は、視覚的関係テンソルの低階特性を利用することである。
本稿では,ttcnの画像レベルの視覚関係予測により,画像検索の簡便かつ効率的なメカニズムを示す。
論文 参考訳(メタデータ) (2020-12-10T06:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。