Fugu-MT 論文翻訳(概要): VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information Retrieval

論文の概要: VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information Retrieval

arxiv url: http://arxiv.org/abs/2302.06350v2
Date: Mon, 24 Apr 2023 15:36:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-25 21:08:45.341850
Title: VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information Retrieval
Title（参考訳）: VITR:クロスモーダル情報検索のための関係焦点学習による視覚変換器の拡張
Authors: Yan Gong and Georgina Cosma
Abstract要約: 本稿では、視覚変換器(ViT)を画像領域の関係を抽出し、推論することによって拡張する新しいネットワークであるVITRを紹介する。 ViTRは、画像中の領域関係を抽出し、推論するためのViTベースのクロスモーダルネットワークの機能を拡張すること、そして、画像と記述の類似点を予測するために、大域的な知識で推論結果を集約すること、の2つの主要な構成要素から構成される。
参考スコア（独自算出の注目度）: 0.4264192013842096
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Relation-focused cross-modal information retrieval focuses on retrieving information based on relations expressed in user queries, and it is particularly important in information retrieval applications and next-generation search engines. While pre-trained networks like Contrastive Language-Image Pre-training (CLIP) have achieved state-of-the-art performance in cross-modal learning tasks, the Vision Transformer (ViT) used in these networks is limited in its ability to focus on image region relations. Specifically, ViT is trained to match images with relevant descriptions at the global level, without considering the alignment between image regions and descriptions. This paper introduces VITR, a novel network that enhances ViT by extracting and reasoning about image region relations based on a Local encoder. VITR comprises two main components: (1) extending the capabilities of ViT-based cross-modal networks to extract and reason with region relations in images; and (2) aggregating the reasoned results with the global knowledge to predict the similarity scores between images and descriptions. Experiments were carried out by applying the proposed network to relation-focused cross-modal information retrieval tasks on the Flickr30K, RefCOCOg, and CLEVR datasets. The results revealed that the proposed VITR network outperformed various other state-of-the-art networks including CLIP, VSE$\infty$, and VSRN++ on both image-to-text and text-to-image cross-modal information retrieval tasks.
Abstract（参考訳）: リレーショナルなクロスモーダルな情報検索は,ユーザクエリで表現された関係に基づく情報検索に重点を置いており,情報検索アプリケーションや次世代検索エンジンでは特に重要である。 Contrastive Language-Image Pre-Training (CLIP) のような事前訓練されたネットワークは、クロスモーダル学習タスクにおいて最先端のパフォーマンスを達成したが、これらのネットワークで使用されるビジョントランスフォーマー(ViT)は、画像領域の関係にフォーカスする能力に制限がある。特に、vitは、画像領域と記述のアライメントを考慮せずに、画像とグローバルレベルでの関連記述とをマッチングするように訓練される。本稿では、ローカルエンコーダに基づく画像領域関係の抽出と推論により、ViTを強化する新しいネットワークであるVITRを紹介する。 VITRは、画像中の領域関係を抽出し、推論するためのViTベースのクロスモーダルネットワークの機能を拡張すること、および、画像と記述間の類似度スコアを予測するために、グローバル知識を用いて推論結果を集約すること、の2つの主要なコンポーネントから構成される。 Flickr30K, RefCOCOg, CLEVRデータセット上の相互モーダル情報検索タスクに提案したネットワークを適用して実験を行った。その結果、vtrネットワークはclip、vse$\infty$、vsrn++など、画像間およびテキスト間クロスモーダル情報検索タスクにおいて、他の最先端ネットワークよりも優れていた。

関連論文リスト

Vision Transformer Based Semantic Communications for Next Generation Wireless Networks [3.8095664680229935]
本稿では視覚変換器(ViT)を用いた意味コミュニケーションフレームワークを提案する。エンコーダ・デコーダ・フレームワークとしてViTを組み込むことで,提案アーキテクチャは画像から高いセマンティック・コンテントへ効率よくエンコードすることができる。提案したViTネットワークに基づくアーキテクチャは,38dBのPak Signal-versato-noise Ratio(PSNR)を実現する。
論文参考訳（メタデータ） (2025-03-21T16:23:02Z)
PIR: Remote Sensing Image-Text Retrieval with Prior Instruction Representation Learning [21.907749083387042]
本稿では,視覚とテキスト表現の適応学習を指導するために,事前知識に基づく事前指示表現(PIR)学習パラダイムを提案する。包括的実験により、PIRは視覚とテキスト表現を強化し、クローズドドメインとオープンドメイン検索の最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2024-05-16T14:53:45Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Cross-modal Orthogonal High-rank Augmentation for RGB-Event Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文参考訳（メタデータ） (2023-07-09T08:58:47Z)
An Interactively Reinforced Paradigm for Joint Infrared-Visible Image Fusion and Saliency Object Detection [59.02821429555375]
この研究は、野生の隠れた物体の発見と位置決めに焦点をあて、無人のシステムに役立てる。経験的分析により、赤外線と可視画像融合(IVIF)は、難しい物体の発見を可能にする。マルチモーダル・サリエント・オブジェクト検出(SOD)は、画像内の物体の正確な空間的位置を正確に記述する。
論文参考訳（メタデータ） (2023-05-17T06:48:35Z)
LSEH: Semantically Enhanced Hard Negatives for Cross-modal Information Retrieval [0.4264192013842096]
Visual Semantic Embedding (VSE)は、画像の意味と記述を抽出し、それらを同じ潜在空間に埋め込んで情報検索を行う。既存のほとんどのVSEネットワークは、関連する画像記述組込みペアの類似性と無関係な画像記述組込みペアの客観的なマージンを学習するハードネガティブ損失関数を採用することで訓練されている。本稿では,(1)画像記述の基盤となるセマンティクスの発見,(2)新たなセマンティクス強化型ハードネガティブ損失関数を提案する。
論文参考訳（メタデータ） (2022-10-10T15:09:39Z)
BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文参考訳（メタデータ） (2022-07-09T07:14:44Z)
A Unified and Biologically-Plausible Relational Graph Representation of Vision Transformers [11.857392812189872]
視覚変換器(ViT)とその変種は様々な視覚的タスクにおいて顕著な成功を収めた。本稿では,ViTモデルの統一的,生物学的に証明可能な関係グラフ表現を提案する。我々の研究は、ViT ANNのより解釈可能で効果的な表現のための、統一的で生物学的に証明可能な新しいパラダイムを提供する。
論文参考訳（メタデータ） (2022-05-20T05:53:23Z)
Visual Spatio-temporal Relation-enhanced Network for Cross-modal Text-Video Retrieval [17.443195531553474]
テキストとビデオのクロスモーダル検索は、視覚と言語との対応を理解することを目的としている。本稿では,時間横断検索フレームワークであるVisual S-temporal Relation-enhanced semantic network (CNN-SRNet)を提案する。 MSR-VTTおよびMSVDデータセットで実験を行う。
論文参考訳（メタデータ） (2021-10-29T08:23:40Z)
Two-stage Visual Cues Enhancement Network for Referring Image Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文参考訳（メタデータ） (2021-10-09T02:53:39Z)
Exploiting the relationship between visual and textual features in social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文参考訳（メタデータ） (2021-07-08T10:54:59Z)
Tensor Composition Net for Visual Relationship Prediction [115.14829858763399]
画像の視覚的関係を予測するための新しいコンポジションネットワーク(TCN)を提案する。 TCNの鍵となる考え方は、視覚的関係テンソルの低階特性を利用することである。本稿では,ttcnの画像レベルの視覚関係予測により,画像検索の簡便かつ効率的なメカニズムを示す。
論文参考訳（メタデータ） (2020-12-10T06:27:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。