論文の概要: CLIP-RR: Improved CLIP Network for Relation-Focused Cross-Modal
Information Retrieval
- arxiv url: http://arxiv.org/abs/2302.06350v1
- Date: Mon, 13 Feb 2023 13:34:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 15:30:37.905704
- Title: CLIP-RR: Improved CLIP Network for Relation-Focused Cross-Modal
Information Retrieval
- Title(参考訳): CLIP-RR:Relation-Focused Cross-Modal Information RetrievalのためのCLIPネットワークの改良
- Authors: Yan Gong and Georgina Cosma
- Abstract要約: 関係性に着目したクロスモーダル情報検索は,ユーザクエリで表現された関係に基づく情報検索に焦点を当てる。
本稿では,関係に着目したクロスモーダル情報検索を実現するCLIP-RRを提案する。
- 参考スコア(独自算出の注目度): 0.4264192013842096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Relation-focused cross-modal information retrieval focuses on retrieving
information based on relations expressed in user queries, and it is
particularly important in information retrieval applications and
next-generation search engines. To date, CLIP (Contrastive Language-Image
Pre-training) achieved state-of-the-art performance in cross-modal learning
tasks due to its efficient learning of visual concepts from natural language
supervision. However, CLIP learns visual representations from natural language
at a global level without the capability of focusing on image-object relations.
This paper proposes a novel CLIP-based network for Relation Reasoning, CLIP-RR,
that tackles relation-focused cross-modal information retrieval. The proposed
network utilises CLIP to leverage its pre-trained knowledge, and it
additionally comprises two main parts: (1) extends the capabilities of CLIP to
extract and reason with object relations in images; and (2) aggregates the
reasoned results for predicting the similarity scores between images and
descriptions. Experiments were carried out by applying the proposed network to
relation-focused cross-modal information retrieval tasks on the RefCOCOg,
CLEVR, and Flickr30K datasets. The results revealed that the proposed network
outperformed various other state-of-the-art networks including CLIP,
VSE$\infty$, and VSRN++ on both image-to-text and text-to-image cross-modal
information retrieval tasks.
- Abstract(参考訳): リレーショナルなクロスモーダルな情報検索は,ユーザクエリで表現された関係に基づく情報検索に重点を置いており,情報検索アプリケーションや次世代検索エンジンでは特に重要である。
現在までに、CLIP(Contrastive Language- Image Pre-training)は、自然言語による視覚概念の効率的な学習により、モーダル間学習タスクにおける最先端のパフォーマンスを達成している。
しかし、CLIPは画像オブジェクトの関係に焦点を絞ることなく、自然言語から世界レベルで視覚表現を学ぶ。
本稿では,関係に着目したクロスモーダル情報検索を実現するCLIP-RRを提案する。
提案するネットワークはクリップを利用して事前学習した知識を活用し,(1)画像中の対象関係を抽出・推論するためのクリップの機能拡張,(2)画像と記述の類似度スコアを予測するための推論結果の集約,の2つの主成分を含む。
提案したネットワークをRefCOCOg, CLEVR, Flickr30Kデータセット上の相互モーダル情報検索タスクに適用して実験を行った。
その結果,提案ネットワークはclip,vse$\infty$,vsrn++など,画像間およびテキスト間クロスモーダル情報検索タスクにおいて,他の最先端ネットワークよりも優れていた。
関連論文リスト
- PIR: Remote Sensing Image-Text Retrieval with Prior Instruction Representation Learning [21.907749083387042]
本稿では,視覚とテキスト表現の適応学習を指導するために,事前知識に基づく事前指示表現(PIR)学習パラダイムを提案する。
包括的実験により、PIRは視覚とテキスト表現を強化し、クローズドドメインとオープンドメイン検索の最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-05-16T14:53:45Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Cross-modal Orthogonal High-rank Augmentation for RGB-Event
Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。
本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。
実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文 参考訳(メタデータ) (2023-07-09T08:58:47Z) - An Interactively Reinforced Paradigm for Joint Infrared-Visible Image
Fusion and Saliency Object Detection [59.02821429555375]
この研究は、野生の隠れた物体の発見と位置決めに焦点をあて、無人のシステムに役立てる。
経験的分析により、赤外線と可視画像融合(IVIF)は、難しい物体の発見を可能にする。
マルチモーダル・サリエント・オブジェクト検出(SOD)は、画像内の物体の正確な空間的位置を正確に記述する。
論文 参考訳(メタデータ) (2023-05-17T06:48:35Z) - LSEH: Semantically Enhanced Hard Negatives for Cross-modal Information
Retrieval [0.4264192013842096]
Visual Semantic Embedding (VSE)は、画像の意味と記述を抽出し、それらを同じ潜在空間に埋め込んで情報検索を行う。
既存のほとんどのVSEネットワークは、関連する画像記述組込みペアの類似性と無関係な画像記述組込みペアの客観的なマージンを学習するハードネガティブ損失関数を採用することで訓練されている。
本稿では,(1)画像記述の基盤となるセマンティクスの発見,(2)新たなセマンティクス強化型ハードネガティブ損失関数を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:09:39Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - A Unified and Biologically-Plausible Relational Graph Representation of
Vision Transformers [11.857392812189872]
視覚変換器(ViT)とその変種は様々な視覚的タスクにおいて顕著な成功を収めた。
本稿では,ViTモデルの統一的,生物学的に証明可能な関係グラフ表現を提案する。
我々の研究は、ViT ANNのより解釈可能で効果的な表現のための、統一的で生物学的に証明可能な新しいパラダイムを提供する。
論文 参考訳(メタデータ) (2022-05-20T05:53:23Z) - Visual Spatio-temporal Relation-enhanced Network for Cross-modal
Text-Video Retrieval [17.443195531553474]
テキストとビデオのクロスモーダル検索は、視覚と言語との対応を理解することを目的としている。
本稿では,時間横断検索フレームワークであるVisual S-temporal Relation-enhanced semantic network (CNN-SRNet)を提案する。
MSR-VTTおよびMSVDデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-10-29T08:23:40Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Tensor Composition Net for Visual Relationship Prediction [115.14829858763399]
画像の視覚的関係を予測するための新しいコンポジションネットワーク(TCN)を提案する。
TCNの鍵となる考え方は、視覚的関係テンソルの低階特性を利用することである。
本稿では,ttcnの画像レベルの視覚関係予測により,画像検索の簡便かつ効率的なメカニズムを示す。
論文 参考訳(メタデータ) (2020-12-10T06:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。