Fugu-MT 論文翻訳(概要): Cross-Modal Coordination Across a Diverse Set of Input Modalities

論文の概要: Cross-Modal Coordination Across a Diverse Set of Input Modalities

arxiv url: http://arxiv.org/abs/2401.16347v1
Date: Mon, 29 Jan 2024 17:53:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 13:54:16.966874
Title: Cross-Modal Coordination Across a Diverse Set of Input Modalities
Title（参考訳）: 入力モダリティの多元集合間のクロスモーダル座標
Authors: Jorge S\'anchez and Rodrigo Laguna
Abstract要約: クロスモーダル検索は、異なるモダリティのクエリを用いて、与えられたモダリティのサンプルを検索するタスクである。本稿では,CLIPの相対的目的を任意の数の入力モダリティに拡張した上で,この問題に対する2つのアプローチを提案する。第2は、対照的な定式化から外れ、目標に向かってモデアルの類似性を回帰することで調整問題に取り組む。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Cross-modal retrieval is the task of retrieving samples of a given modality by using queries of a different one. Due to the wide range of practical applications, the problem has been mainly focused on the vision and language case, e.g. text to image retrieval, where models like CLIP have proven effective in solving such tasks. The dominant approach to learning such coordinated representations consists of projecting them onto a common space where matching views stay close and those from non-matching pairs are pushed away from each other. Although this cross-modal coordination has been applied also to other pairwise combinations, extending it to an arbitrary number of diverse modalities is a problem that has not been fully explored in the literature. In this paper, we propose two different approaches to the problem. The first is based on an extension of the CLIP contrastive objective to an arbitrary number of input modalities, while the second departs from the contrastive formulation and tackles the coordination problem by regressing the cross-modal similarities towards a target that reflects two simple and intuitive constraints of the cross-modal retrieval task. We run experiments on two different datasets, over different combinations of input modalities and show that the approach is not only simple and effective but also allows for tackling the retrieval problem in novel ways. Besides capturing a more diverse set of pair-wise interactions, we show that we can use the learned representations to improve retrieval performance by combining the embeddings from two or more such modalities.
Abstract（参考訳）: クロスモーダル検索は、異なるモダリティのクエリを用いて、与えられたモダリティのサンプルを検索するタスクである。幅広い実用的な応用のために、この問題は主に視覚と言語、例えばテキストから画像の検索に焦点が当てられ、CLIPのようなモデルがそのようなタスクの解決に有効であることが証明されている。このような協調表現を学習するための支配的なアプローチは、一致するビューが近く、非マッチングペアからのビューが互いに遠ざかる共通の空間にそれらを投影することである。このクロスモーダルコーディネーションは、他のペアワイズ結合にも適用されてきたが、任意の数の多様なモダリティに拡張することは、文献で十分に研究されていない問題である。本稿では,この問題に対する2つの異なるアプローチを提案する。 1つ目は、CLIPのコントラッシブな目的を任意の数の入力モダリティに拡張することに基づいており、2つ目は、コントラッシブな定式化から離脱し、クロスモーダルな類似性を2つの単純かつ直感的な制約を反映したターゲットに回帰させることによって調整問題に取り組む。入力モダリティの異なる組み合わせで2つの異なるデータセット上で実験を行い、アプローチが単純かつ効果的であるだけでなく、新しい方法で検索問題に取り組むことが可能であることを示す。ペア・アズ・インタラクションのより多様な集合をキャプチャすると同時に,学習表現を用いて2つ以上のモダリティからの埋め込みを組み合わせることで,検索性能を向上させることができることを示した。

関連論文リスト

Maximal Matching Matters: Preventing Representation Collapse for Robust Cross-Modal Retrieval [0.5999777817331317]
モダリティの異なるコンテンツ間の多様な関連性のため、モダリティ間の画像テキスト検索は困難である。従来の手法では、各サンプルのセマンティクスを表現するために、単一ベクトルの埋め込みを学ぶ。各サンプルを複数の埋め込みで表現するセットベースのアプローチは、有望な代替手段を提供する。
論文参考訳（メタデータ） (2025-06-26T17:55:34Z)
Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts [67.67746334493302]
大規模言語モデル(LLM)は、多くのタスクにまたがる顕著な機能を示してきたが、複雑なタスクを扱うために外部のコンテキストに依存していることが多い。我々は、このプロセスをマルコフ決定プロセス(MDP)としてモデル化するトリエンコーダシーケンシャルレトリバーを提案する。提案手法は,サンプル間の依存関係を明示的にモデル化することの重要性を強調し,ベースラインを一貫して大幅に上回ることを示す。
論文参考訳（メタデータ） (2025-04-15T17:35:56Z)
GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文参考訳（メタデータ） (2024-10-20T03:45:50Z)
CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文参考訳（メタデータ） (2024-06-25T12:47:04Z)
Similarity-based Memory Enhanced Joint Entity and Relation Extraction [3.9659135716762894]
文書レベルの共同エンティティと関係抽出は難解な情報抽出問題である。タスク間の双方向メモリのような依存性を持つマルチタスク学習フレームワークを提案する。実験により,提案手法が既存手法より優れていることが示された。
論文参考訳（メタデータ） (2023-07-14T12:26:56Z)
Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文参考訳（メタデータ） (2023-06-22T10:53:10Z)
Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReID [56.573905143954015]
本稿では, クラスタ間マッチングによるモダリティギャップを低減するための, クラスタマッチングに基づく新たな学習フレームワークを提案する。このような監視信号の下では、クラスタレベルで特徴を協調的に整列させるために、モダリティ・特定・モダリティ・非依存(MSMA)コントラスト学習フレームワークが提案されている。公開SYSU-MM01とRegDBデータセットの実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2023-05-22T03:27:46Z)
Improving Cross-Modal Retrieval with Set of Diverse Embeddings [19.365974066256026]
画像とテキストのモダリティを横断するクロスモーダル検索は、その固有の曖昧さのために難しい課題である。この問題の解決策として、セットベースの埋め込みが研究されている。本稿では,従来の2つの側面において異なる,新しい集合ベースの埋め込み手法を提案する。
論文参考訳（メタデータ） (2022-11-30T05:59:23Z)
Probing Visual-Audio Representation for Video Highlight Detection via Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文参考訳（メタデータ） (2022-06-21T07:29:37Z)
Multi-Modal Mutual Information Maximization: A Novel Approach for Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文参考訳（メタデータ） (2021-12-13T08:58:03Z)
Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文参考訳（メタデータ） (2020-10-24T21:35:57Z)
Universal Weighting Metric Learning for Cross-Modal Matching [79.32133554506122]
クロスモーダルマッチングは、視覚領域と言語領域の両方において、注目すべき研究トピックである。クロスモーダルマッチングのためのシンプルで解釈可能な普遍重み付けフレームワークを提案する。
論文参考訳（メタデータ） (2020-10-07T13:16:45Z)
COBRA: Contrastive Bi-Modal Representation Algorithm [43.33840912256077]
本稿では,CPC(Contrastive Predictive Coding)とNCE(Noth Contrastive Estimation)のパラダイムにインスパイアされた,2つのモダリティの学習を目的とした新しいフレームワークを提案する。本研究では,この枠組みがモダリティギャップを大幅に減らし,ロバストでタスクに依存しない共同埋め込み空間を生成することを実証的に示す。 7つのベンチマークのクロスモーダルデータセットにまたがる4つのダウンストリームタスクにおいて、既存の作業よりも優れています。
論文参考訳（メタデータ） (2020-05-07T18:20:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。