Fugu-MT 論文翻訳(概要): Dual Relation Alignment for Composed Image Retrieval

論文の概要: Dual Relation Alignment for Composed Image Retrieval

arxiv url: http://arxiv.org/abs/2309.02169v3
Date: Wed, 31 Jan 2024 06:18:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 11:40:19.110547
Title: Dual Relation Alignment for Composed Image Retrieval
Title（参考訳）: 合成画像検索のためのデュアルリレーションアライメント
Authors: Xintong Jiang, Yaxiong Wang, Yujiao Wu, Meng Wang, Xueming Qian
Abstract要約: 合成画像検索における2種類の関係性の存在を論じる。明示的な関係は、参照画像と補完テキストターゲット画像に関連する。本稿では,合成画像検索のための新たな枠組みを提案する。
参考スコア（独自算出の注目度）: 24.812654620141778
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Composed image retrieval, a task involving the search for a target image using a reference image and a complementary text as the query, has witnessed significant advancements owing to the progress made in cross-modal modeling. Unlike the general image-text retrieval problem with only one alignment relation, i.e., image-text, we argue for the existence of two types of relations in composed image retrieval. The explicit relation pertains to the reference image & complementary text-target image, which is commonly exploited by existing methods. Besides this intuitive relation, the observations during our practice have uncovered another implicit yet crucial relation, i.e., reference image & target image-complementary text, since we found that the complementary text can be inferred by studying the relation between the target image and the reference image. Regrettably, existing methods largely focus on leveraging the explicit relation to learn their networks, while overlooking the implicit relation. In response to this weakness, We propose a new framework for composed image retrieval, termed dual relation alignment, which integrates both explicit and implicit relations to fully exploit the correlations among the triplets. Specifically, we design a vision compositor to fuse reference image and target image at first, then the resulted representation will serve two roles: (1) counterpart for semantic alignment with the complementary text and (2) compensation for the complementary text to boost the explicit relation modeling, thereby implant the implicit relation into the alignment learning. Our method is evaluated on two popular datasets, CIRR and FashionIQ, through extensive experiments. The results confirm the effectiveness of our dual-relation learning in substantially enhancing composed image retrieval performance.
Abstract（参考訳）: 合成画像検索は、参照画像を用いた対象画像の検索と、クエリとしての補完テキストの検索を伴うタスクであり、クロスモーダルモデリングの進歩により、大幅に進歩している。 1つのアライメント関係のみを持つ一般的な画像テキスト検索問題、すなわち画像テキストとは異なり、合成画像検索において2種類の関係が存在することを議論する。明示的な関係は、既存の方法によって一般的に利用される参照画像と補完的なテキストターゲット画像に関連する。この直感的関係に加えて、我々の実践中の観察では、対象画像と参照画像の関係を研究することにより、補完的なテキストを推測できることから、参照画像とターゲット画像の補完テキストという、暗黙的かつ重要な関係が明らかになった。既存の手法は、暗黙の関係を見下ろしながら、ネットワークを学習するために明示的な関係を活用することに重点を置いている。この弱点に対応するために,三重項間の相関関係を完全に活用するために,明示的関係と暗黙的関係を統合した合成画像検索のための新しい枠組みを提案する。具体的には、まず、基準画像と対象画像とを融合させる視覚合成器を設計し、その結果得られた表現は、(1)補完テキストと意味的アライメントの対応、(2)明示的な関係モデリングを促進するために補完テキストの補償という2つの役割を担い、暗黙的な関係をアライメント学習に組み込む。提案手法は,CIRRとFashionIQの2つの一般的なデータセットに対して,広範な実験により評価する。その結果,合成画像検索性能が大幅に向上する上で,二重相関学習の有効性が確認できた。

関連論文リスト

Descriptive Image-Text Matching with Graded Contextual Similarity [41.10869519062159]
画像とテキストの文脈的類似度を段階的に学習するために,DITMと呼ばれる記述的画像テキストマッチングを提案する。各文の記述性スコアを累積項の周波数逆文書頻度(TF-IDF)で定式化し、両者の相似性をバランスさせる。本手法は文記述性を利用して,2つの重要な方法で堅牢な画像テキストマッチングを学習する。
論文参考訳（メタデータ） (2025-05-15T06:21:00Z)
Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文参考訳（メタデータ） (2024-06-17T17:56:01Z)
Hire: Hybrid-modal Interaction with Multiple Relational Enhancements for Image-Text Matching [7.7559623054251]
画像テキストマッチング(ITM)はコンピュータビジョンの基本的な問題である。画像テキストマッチングのためのマルチエンハンスメント(termed textitHire)を用いたハイブリッドモーダル機能を提案する。特に、明示的なモーダル空間意味グラフに基づく推論ネットワークは、視覚オブジェクトの文脈表現を改善するために設計されている。
論文参考訳（メタデータ） (2024-06-05T13:10:55Z)
CaLa: Complementary Association Learning for Augmenting Composed Image Retrieval [15.45550686770835]
Composed Image Retrieval (CIR)は、画像とテキストのペアクエリに基づいてターゲットイメージを検索する。我々は、CIR三重項が、この一次関係を超える付加的な関連を含んでいると論じる。本稿では,三重項をグラフノードとして扱い,三重項内の2つの新しい関係を同定する。
論文参考訳（メタデータ） (2024-05-29T14:52:10Z)
Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文参考訳（メタデータ） (2023-06-15T00:19:13Z)
Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文参考訳（メタデータ） (2023-05-23T08:28:38Z)
BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文参考訳（メタデータ） (2022-07-09T07:14:44Z)
Transformer-based Dual Relation Graph for Multi-label Image Recognition [56.12543717723385]
本稿では,トランスフォーマーをベースとしたデュアルリレーショナル学習フレームワークを提案する。相関の2つの側面、すなわち構造関係グラフと意味関係グラフについて検討する。提案手法は,2つのポピュラーなマルチラベル認識ベンチマークにおいて,最先端性を実現する。
論文参考訳（メタデータ） (2021-10-10T07:14:52Z)
Cross-Modal Coherence for Text-to-Image Retrieval [35.82045187976062]
我々はテキスト・ツー・イメージ検索タスクに対して,クロスモーダル・コヒーレンス・モデル(Cross-Modal Coherence Model)を訓練する。画像・テキスト・コヒーレンス関係を訓練したモデルでは,コヒーレンス・コヒーレンス・コヒーレンス・コヒーレンス・コヒーレンス・モデルよりも,元来ターゲットテキストとペアリングした画像の検索が可能であった。本研究は,テキストや画像のコモンセンス推論を捉える上で,異なるモダリティがコミュニケーションする方法,コヒーレンス関係の役割について考察した。
論文参考訳（メタデータ） (2021-09-22T21:31:27Z)
Tensor Composition Net for Visual Relationship Prediction [115.14829858763399]
画像の視覚的関係を予測するための新しいコンポジションネットワーク(TCN)を提案する。 TCNの鍵となる考え方は、視覚的関係テンソルの低階特性を利用することである。本稿では,ttcnの画像レベルの視覚関係予測により,画像検索の簡便かつ効率的なメカニズムを示す。
論文参考訳（メタデータ） (2020-12-10T06:27:20Z)
Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文参考訳（メタデータ） (2020-07-17T10:22:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。