論文の概要: VITR: Augmenting Vision Transformers with Relation-Focused Learning for
Cross-Modal Information Retrieval
- arxiv url: http://arxiv.org/abs/2302.06350v2
- Date: Mon, 24 Apr 2023 15:36:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 21:08:45.341850
- Title: VITR: Augmenting Vision Transformers with Relation-Focused Learning for
Cross-Modal Information Retrieval
- Title(参考訳): VITR:クロスモーダル情報検索のための関係焦点学習による視覚変換器の拡張
- Authors: Yan Gong and Georgina Cosma
- Abstract要約: 本稿では、視覚変換器(ViT)を画像領域の関係を抽出し、推論することによって拡張する新しいネットワークであるVITRを紹介する。
ViTRは、画像中の領域関係を抽出し、推論するためのViTベースのクロスモーダルネットワークの機能を拡張すること、そして、画像と記述の類似点を予測するために、大域的な知識で推論結果を集約すること、の2つの主要な構成要素から構成される。
- 参考スコア(独自算出の注目度): 0.4264192013842096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Relation-focused cross-modal information retrieval focuses on retrieving
information based on relations expressed in user queries, and it is
particularly important in information retrieval applications and
next-generation search engines. While pre-trained networks like Contrastive
Language-Image Pre-training (CLIP) have achieved state-of-the-art performance
in cross-modal learning tasks, the Vision Transformer (ViT) used in these
networks is limited in its ability to focus on image region relations.
Specifically, ViT is trained to match images with relevant descriptions at the
global level, without considering the alignment between image regions and
descriptions. This paper introduces VITR, a novel network that enhances ViT by
extracting and reasoning about image region relations based on a Local encoder.
VITR comprises two main components: (1) extending the capabilities of ViT-based
cross-modal networks to extract and reason with region relations in images; and
(2) aggregating the reasoned results with the global knowledge to predict the
similarity scores between images and descriptions. Experiments were carried out
by applying the proposed network to relation-focused cross-modal information
retrieval tasks on the Flickr30K, RefCOCOg, and CLEVR datasets. The results
revealed that the proposed VITR network outperformed various other
state-of-the-art networks including CLIP, VSE$\infty$, and VSRN++ on both
image-to-text and text-to-image cross-modal information retrieval tasks.
- Abstract(参考訳): リレーショナルなクロスモーダルな情報検索は,ユーザクエリで表現された関係に基づく情報検索に重点を置いており,情報検索アプリケーションや次世代検索エンジンでは特に重要である。
Contrastive Language-Image Pre-Training (CLIP) のような事前訓練されたネットワークは、クロスモーダル学習タスクにおいて最先端のパフォーマンスを達成したが、これらのネットワークで使用されるビジョントランスフォーマー(ViT)は、画像領域の関係にフォーカスする能力に制限がある。
特に、vitは、画像領域と記述のアライメントを考慮せずに、画像とグローバルレベルでの関連記述とをマッチングするように訓練される。
本稿では、ローカルエンコーダに基づく画像領域関係の抽出と推論により、ViTを強化する新しいネットワークであるVITRを紹介する。
VITRは、画像中の領域関係を抽出し、推論するためのViTベースのクロスモーダルネットワークの機能を拡張すること、および、画像と記述間の類似度スコアを予測するために、グローバル知識を用いて推論結果を集約すること、の2つの主要なコンポーネントから構成される。
Flickr30K, RefCOCOg, CLEVRデータセット上の相互モーダル情報検索タスクに提案したネットワークを適用して実験を行った。
その結果、vtrネットワークはclip、vse$\infty$、vsrn++など、画像間およびテキスト間クロスモーダル情報検索タスクにおいて、他の最先端ネットワークよりも優れていた。
関連論文リスト
- PIR: Remote Sensing Image-Text Retrieval with Prior Instruction Representation Learning [21.907749083387042]
本稿では,視覚とテキスト表現の適応学習を指導するために,事前知識に基づく事前指示表現(PIR)学習パラダイムを提案する。
包括的実験により、PIRは視覚とテキスト表現を強化し、クローズドドメインとオープンドメイン検索の最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-05-16T14:53:45Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Cross-modal Orthogonal High-rank Augmentation for RGB-Event
Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。
本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。
実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文 参考訳(メタデータ) (2023-07-09T08:58:47Z) - An Interactively Reinforced Paradigm for Joint Infrared-Visible Image
Fusion and Saliency Object Detection [59.02821429555375]
この研究は、野生の隠れた物体の発見と位置決めに焦点をあて、無人のシステムに役立てる。
経験的分析により、赤外線と可視画像融合(IVIF)は、難しい物体の発見を可能にする。
マルチモーダル・サリエント・オブジェクト検出(SOD)は、画像内の物体の正確な空間的位置を正確に記述する。
論文 参考訳(メタデータ) (2023-05-17T06:48:35Z) - LSEH: Semantically Enhanced Hard Negatives for Cross-modal Information
Retrieval [0.4264192013842096]
Visual Semantic Embedding (VSE)は、画像の意味と記述を抽出し、それらを同じ潜在空間に埋め込んで情報検索を行う。
既存のほとんどのVSEネットワークは、関連する画像記述組込みペアの類似性と無関係な画像記述組込みペアの客観的なマージンを学習するハードネガティブ損失関数を採用することで訓練されている。
本稿では,(1)画像記述の基盤となるセマンティクスの発見,(2)新たなセマンティクス強化型ハードネガティブ損失関数を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:09:39Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - A Unified and Biologically-Plausible Relational Graph Representation of
Vision Transformers [11.857392812189872]
視覚変換器(ViT)とその変種は様々な視覚的タスクにおいて顕著な成功を収めた。
本稿では,ViTモデルの統一的,生物学的に証明可能な関係グラフ表現を提案する。
我々の研究は、ViT ANNのより解釈可能で効果的な表現のための、統一的で生物学的に証明可能な新しいパラダイムを提供する。
論文 参考訳(メタデータ) (2022-05-20T05:53:23Z) - Visual Spatio-temporal Relation-enhanced Network for Cross-modal
Text-Video Retrieval [17.443195531553474]
テキストとビデオのクロスモーダル検索は、視覚と言語との対応を理解することを目的としている。
本稿では,時間横断検索フレームワークであるVisual S-temporal Relation-enhanced semantic network (CNN-SRNet)を提案する。
MSR-VTTおよびMSVDデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-10-29T08:23:40Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Tensor Composition Net for Visual Relationship Prediction [115.14829858763399]
画像の視覚的関係を予測するための新しいコンポジションネットワーク(TCN)を提案する。
TCNの鍵となる考え方は、視覚的関係テンソルの低階特性を利用することである。
本稿では,ttcnの画像レベルの視覚関係予測により,画像検索の簡便かつ効率的なメカニズムを示す。
論文 参考訳(メタデータ) (2020-12-10T06:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。