Fugu-MT 論文翻訳(概要): VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information Retrieval

論文の概要: VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information Retrieval

arxiv url: http://arxiv.org/abs/2302.06350v3
Date: Thu, 27 Jul 2023 21:48:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-31 16:22:00.549947
Title: VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information Retrieval
Title（参考訳）: VITR:クロスモーダル情報検索のための関係焦点学習による視覚変換器の拡張
Authors: Yan Gong, Georgina Cosma, and Axel Finke
Abstract要約: 本稿では、視覚変換器(ViT)を画像領域の関係を抽出し、推論することによって拡張する新しいネットワークであるVITRを紹介する。 ViTRは、画像と記述間の類似点を予測するために、理由付けされた結果とグローバル知識を組み合わせた融合モジュールを組み込んでいる。
参考スコア（独自算出の注目度）: 0.3211619859724084
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The relations expressed in user queries are vital for cross-modal information retrieval. Relation-focused cross-modal retrieval aims to retrieve information that corresponds to these relations, enabling effective retrieval across different modalities. Pre-trained networks, such as Contrastive Language-Image Pre-training (CLIP), have gained significant attention and acclaim for their exceptional performance in various cross-modal learning tasks. However, the Vision Transformer (ViT) used in these networks is limited in its ability to focus on image region relations. Specifically, ViT is trained to match images with relevant descriptions at the global level, without considering the alignment between image regions and descriptions. This paper introduces VITR, a novel network that enhances ViT by extracting and reasoning about image region relations based on a local encoder. VITR is comprised of two key components. Firstly, it extends the capabilities of ViT-based cross-modal networks by enabling them to extract and reason with region relations present in images. Secondly, VITR incorporates a fusion module that combines the reasoned results with global knowledge to predict similarity scores between images and descriptions. The proposed VITR network was evaluated through experiments on the tasks of relation-focused cross-modal information retrieval. The results derived from the analysis of the RefCOCOg, CLEVR, and Flickr30K datasets demonstrated that the proposed VITR network consistently outperforms state-of-the-art networks in image-to-text and text-to-image retrieval.
Abstract（参考訳）: ユーザクエリで表現される関係は、クロスモーダル情報検索に不可欠である。関係に焦点をあてたクロスモーダル検索は、これらの関係に対応する情報を検索することを目的としており、異なるモダリティ間の効果的な検索を可能にする。 Contrastive Language-Image Pre-Training (CLIP) のような事前学習型ネットワークは、様々なクロスモーダル学習タスクにおける例外的な性能を高く評価している。しかし、これらのネットワークで使用されるビジョントランスフォーマー(ViT)は、画像領域の関係にフォーカスする能力に制限がある。特に、vitは、画像領域と記述のアライメントを考慮せずに、画像とグローバルレベルでの関連記述とをマッチングするように訓練される。本稿では、ローカルエンコーダに基づく画像領域関係の抽出と推論により、ViTを強化する新しいネットワークであるVITRを紹介する。 VITRは2つのキーコンポーネントから構成される。まず、画像中の領域関係を抽出し、推論できるようにすることで、ViTベースのクロスモーダルネットワークの機能を拡張する。第2に、VITRは、画像と記述間の類似度スコアを予測するために、推論結果とグローバル知識を組み合わせた融合モジュールを組み込んでいる。提案したVITRネットワークは,関係性に着目したクロスモーダル情報検索の課題に関する実験を通じて評価された。 refcocog, clevr, flickr30kのデータセットの解析から得られた結果は, 提案するvitrネットワークが, 画像間検索とテキスト間検索において, 最先端のネットワークを一貫して上回っていることを示している。

関連論文リスト

Vision Transformer Based Semantic Communications for Next Generation Wireless Networks [3.8095664680229935]
本稿では視覚変換器(ViT)を用いた意味コミュニケーションフレームワークを提案する。エンコーダ・デコーダ・フレームワークとしてViTを組み込むことで,提案アーキテクチャは画像から高いセマンティック・コンテントへ効率よくエンコードすることができる。提案したViTネットワークに基づくアーキテクチャは,38dBのPak Signal-versato-noise Ratio(PSNR)を実現する。
論文参考訳（メタデータ） (2025-03-21T16:23:02Z)
PIR: Remote Sensing Image-Text Retrieval with Prior Instruction Representation Learning [21.907749083387042]
本稿では,視覚とテキスト表現の適応学習を指導するために,事前知識に基づく事前指示表現(PIR)学習パラダイムを提案する。包括的実験により、PIRは視覚とテキスト表現を強化し、クローズドドメインとオープンドメイン検索の最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2024-05-16T14:53:45Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Cross-modal Orthogonal High-rank Augmentation for RGB-Event Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文参考訳（メタデータ） (2023-07-09T08:58:47Z)
An Interactively Reinforced Paradigm for Joint Infrared-Visible Image Fusion and Saliency Object Detection [59.02821429555375]
この研究は、野生の隠れた物体の発見と位置決めに焦点をあて、無人のシステムに役立てる。経験的分析により、赤外線と可視画像融合(IVIF)は、難しい物体の発見を可能にする。マルチモーダル・サリエント・オブジェクト検出(SOD)は、画像内の物体の正確な空間的位置を正確に記述する。
論文参考訳（メタデータ） (2023-05-17T06:48:35Z)
LSEH: Semantically Enhanced Hard Negatives for Cross-modal Information Retrieval [0.4264192013842096]
Visual Semantic Embedding (VSE)は、画像の意味と記述を抽出し、それらを同じ潜在空間に埋め込んで情報検索を行う。既存のほとんどのVSEネットワークは、関連する画像記述組込みペアの類似性と無関係な画像記述組込みペアの客観的なマージンを学習するハードネガティブ損失関数を採用することで訓練されている。本稿では,(1)画像記述の基盤となるセマンティクスの発見,(2)新たなセマンティクス強化型ハードネガティブ損失関数を提案する。
論文参考訳（メタデータ） (2022-10-10T15:09:39Z)
BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文参考訳（メタデータ） (2022-07-09T07:14:44Z)
A Unified and Biologically-Plausible Relational Graph Representation of Vision Transformers [11.857392812189872]
視覚変換器(ViT)とその変種は様々な視覚的タスクにおいて顕著な成功を収めた。本稿では,ViTモデルの統一的,生物学的に証明可能な関係グラフ表現を提案する。我々の研究は、ViT ANNのより解釈可能で効果的な表現のための、統一的で生物学的に証明可能な新しいパラダイムを提供する。
論文参考訳（メタデータ） (2022-05-20T05:53:23Z)
Visual Spatio-temporal Relation-enhanced Network for Cross-modal Text-Video Retrieval [17.443195531553474]
テキストとビデオのクロスモーダル検索は、視覚と言語との対応を理解することを目的としている。本稿では,時間横断検索フレームワークであるVisual S-temporal Relation-enhanced semantic network (CNN-SRNet)を提案する。 MSR-VTTおよびMSVDデータセットで実験を行う。
論文参考訳（メタデータ） (2021-10-29T08:23:40Z)
Two-stage Visual Cues Enhancement Network for Referring Image Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文参考訳（メタデータ） (2021-10-09T02:53:39Z)
Exploiting the relationship between visual and textual features in social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文参考訳（メタデータ） (2021-07-08T10:54:59Z)
Tensor Composition Net for Visual Relationship Prediction [115.14829858763399]
画像の視覚的関係を予測するための新しいコンポジションネットワーク(TCN)を提案する。 TCNの鍵となる考え方は、視覚的関係テンソルの低階特性を利用することである。本稿では,ttcnの画像レベルの視覚関係予測により,画像検索の簡便かつ効率的なメカニズムを示す。
論文参考訳（メタデータ） (2020-12-10T06:27:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。