論文の概要: Cross-Modal Coordination Across a Diverse Set of Input Modalities
- arxiv url: http://arxiv.org/abs/2401.16347v1
- Date: Mon, 29 Jan 2024 17:53:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 13:54:16.966874
- Title: Cross-Modal Coordination Across a Diverse Set of Input Modalities
- Title(参考訳): 入力モダリティの多元集合間のクロスモーダル座標
- Authors: Jorge S\'anchez and Rodrigo Laguna
- Abstract要約: クロスモーダル検索は、異なるモダリティのクエリを用いて、与えられたモダリティのサンプルを検索するタスクである。
本稿では,CLIPの相対的目的を任意の数の入力モダリティに拡張した上で,この問題に対する2つのアプローチを提案する。
第2は、対照的な定式化から外れ、目標に向かってモデアルの類似性を回帰することで調整問題に取り組む。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal retrieval is the task of retrieving samples of a given modality
by using queries of a different one. Due to the wide range of practical
applications, the problem has been mainly focused on the vision and language
case, e.g. text to image retrieval, where models like CLIP have proven
effective in solving such tasks. The dominant approach to learning such
coordinated representations consists of projecting them onto a common space
where matching views stay close and those from non-matching pairs are pushed
away from each other. Although this cross-modal coordination has been applied
also to other pairwise combinations, extending it to an arbitrary number of
diverse modalities is a problem that has not been fully explored in the
literature. In this paper, we propose two different approaches to the problem.
The first is based on an extension of the CLIP contrastive objective to an
arbitrary number of input modalities, while the second departs from the
contrastive formulation and tackles the coordination problem by regressing the
cross-modal similarities towards a target that reflects two simple and
intuitive constraints of the cross-modal retrieval task. We run experiments on
two different datasets, over different combinations of input modalities and
show that the approach is not only simple and effective but also allows for
tackling the retrieval problem in novel ways. Besides capturing a more diverse
set of pair-wise interactions, we show that we can use the learned
representations to improve retrieval performance by combining the embeddings
from two or more such modalities.
- Abstract(参考訳): クロスモーダル検索は、異なるモダリティのクエリを用いて、与えられたモダリティのサンプルを検索するタスクである。
幅広い実用的な応用のために、この問題は主に視覚と言語、例えばテキストから画像の検索に焦点が当てられ、CLIPのようなモデルがそのようなタスクの解決に有効であることが証明されている。
このような協調表現を学習するための支配的なアプローチは、一致するビューが近く、非マッチングペアからのビューが互いに遠ざかる共通の空間にそれらを投影することである。
このクロスモーダルコーディネーションは、他のペアワイズ結合にも適用されてきたが、任意の数の多様なモダリティに拡張することは、文献で十分に研究されていない問題である。
本稿では,この問題に対する2つの異なるアプローチを提案する。
1つ目は、CLIPのコントラッシブな目的を任意の数の入力モダリティに拡張することに基づいており、2つ目は、コントラッシブな定式化から離脱し、クロスモーダルな類似性を2つの単純かつ直感的な制約を反映したターゲットに回帰させることによって調整問題に取り組む。
入力モダリティの異なる組み合わせで2つの異なるデータセット上で実験を行い、アプローチが単純かつ効果的であるだけでなく、新しい方法で検索問題に取り組むことが可能であることを示す。
ペア・アズ・インタラクションのより多様な集合をキャプチャすると同時に,学習表現を用いて2つ以上のモダリティからの埋め込みを組み合わせることで,検索性能を向上させることができることを示した。
関連論文リスト
- Similarity-based Memory Enhanced Joint Entity and Relation Extraction [3.9659135716762894]
文書レベルの共同エンティティと関係抽出は難解な情報抽出問題である。
タスク間の双方向メモリのような依存性を持つマルチタスク学習フレームワークを提案する。
実験により,提案手法が既存手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-14T12:26:56Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReID [56.573905143954015]
本稿では, クラスタ間マッチングによるモダリティギャップを低減するための, クラスタマッチングに基づく新たな学習フレームワークを提案する。
このような監視信号の下では、クラスタレベルで特徴を協調的に整列させるために、モダリティ・特定・モダリティ・非依存(MSMA)コントラスト学習フレームワークが提案されている。
公開SYSU-MM01とRegDBデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-22T03:27:46Z) - Improving Cross-Modal Retrieval with Set of Diverse Embeddings [19.365974066256026]
画像とテキストのモダリティを横断するクロスモーダル検索は、その固有の曖昧さのために難しい課題である。
この問題の解決策として、セットベースの埋め込みが研究されている。
本稿では,従来の2つの側面において異なる,新しい集合ベースの埋め込み手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T05:59:23Z) - Probing Visual-Audio Representation for Video Highlight Detection via
Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。
本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。
コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文 参考訳(メタデータ) (2022-06-21T07:29:37Z) - Hybrid Relation Guided Set Matching for Few-shot Action Recognition [51.3308583226322]
本稿では,2つの鍵成分を組み込んだHybrid Relation Guided Set Matching (HyRSM) 手法を提案する。
ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。
我々は,HyRSMを6つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-04-28T11:43:41Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - Universal Weighting Metric Learning for Cross-Modal Matching [79.32133554506122]
クロスモーダルマッチングは、視覚領域と言語領域の両方において、注目すべき研究トピックである。
クロスモーダルマッチングのためのシンプルで解釈可能な普遍重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-07T13:16:45Z) - COBRA: Contrastive Bi-Modal Representation Algorithm [43.33840912256077]
本稿では,CPC(Contrastive Predictive Coding)とNCE(Noth Contrastive Estimation)のパラダイムにインスパイアされた,2つのモダリティの学習を目的とした新しいフレームワークを提案する。
本研究では,この枠組みがモダリティギャップを大幅に減らし,ロバストでタスクに依存しない共同埋め込み空間を生成することを実証的に示す。
7つのベンチマークのクロスモーダルデータセットにまたがる4つのダウンストリームタスクにおいて、既存の作業よりも優れています。
論文 参考訳(メタデータ) (2020-05-07T18:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。