論文の概要: SwAMP: Swapped Assignment of Multi-Modal Pairs for Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2111.05814v1
- Date: Wed, 10 Nov 2021 17:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 14:55:00.853107
- Title: SwAMP: Swapped Assignment of Multi-Modal Pairs for Cross-Modal Retrieval
- Title(参考訳): SwAMP: クロスモーダル検索のためのマルチモーダルペアのスワップアサインメント
- Authors: Minyoung Kim
- Abstract要約: 未知のクラスを自己ラベル化した新たな損失関数を提案する。
我々は,テキストベースビデオ検索,スケッチベース画像検索,画像テキスト検索など,実世界のクロスモーダル検索問題に対するアプローチを検証した。
- 参考スコア(独自算出の注目度): 15.522964295287425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We tackle the cross-modal retrieval problem, where the training is only
supervised by the relevant multi-modal pairs in the data. The contrastive
learning is the most popular approach for this task. However, its sampling
complexity for learning is quadratic in the number of training data points.
Moreover, it makes potentially wrong assumption that the instances in different
pairs are automatically irrelevant. To address these issues, we propose a novel
loss function that is based on self-labeling of the unknown classes.
Specifically, we aim to predict class labels of the data instances in each
modality, and assign those labels to the corresponding instances in the other
modality (i.e., swapping the pseudo labels). With these swapped labels, we
learn the data embedding for each modality using the supervised cross-entropy
loss, hence leading to linear sampling complexity. We also maintain the queues
for storing the embeddings of the latest batches, for which clustering
assignment and embedding learning are done at the same time in an online
fashion. This removes computational overhead of injecting intermittent epochs
of entire training data sweep for offline clustering. We tested our approach on
several real-world cross-modal retrieval problems, including text-based video
retrieval, sketch-based image retrieval, and image-text retrieval, and for all
these tasks our method achieves significant performance improvement over the
contrastive learning.
- Abstract(参考訳): 我々は、データ内の関連するマルチモーダルペアによってのみトレーニングが管理されるクロスモーダル検索問題に取り組む。
対照的な学習は、このタスクでもっとも一般的なアプローチです。
しかし、学習のためのサンプリングの複雑さは、トレーニングデータポイントの数で2倍である。
さらに、異なるペアのインスタンスが自動的に無関係であるという仮定を間違える可能性がある。
そこで本研究では,未知クラスの自己ラベル付けに基づく新しい損失関数を提案する。
具体的には、各モダリティにおけるデータインスタンスのクラスラベルを予測し、他のモダリティにおける対応するインスタンスにそれらのラベルを割り当てることを目的とする。
これらのスワップラベルを用いて、教師付きクロスエントロピー損失を用いて各モダリティに対するデータ埋め込みを学習し、線形サンプリング複雑性をもたらす。
また、最新のバッチの埋め込みを格納するためのキューも維持し、クラスタリングの割り当てと埋め込み学習をオンライン形式で同時に行う。
これにより、オフラインクラスタリングのためのトレーニングデータ全体の間欠的エポックを注入する計算オーバーヘッドがなくなる。
本手法は,テキストベースビデオ検索,スケッチベース画像検索,画像テキスト検索など,いくつかの実世界のクロスモーダル検索問題に対して本手法を適用した。
関連論文リスト
- Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - MILD: Modeling the Instance Learning Dynamics for Learning with Noisy
Labels [19.650299232829546]
クリーンなデータを特定するために,Weibull混合モデルに基づく反復的選択手法を提案する。
特に、誤分類と暗記の間の遷移時間を通じて、各インスタンスの暗記の難しさを測定し、暗記する。
我々の戦略は既存の雑音ラベル学習方法より優れている。
論文 参考訳(メタデータ) (2023-06-20T14:26:53Z) - Association Graph Learning for Multi-Task Classification with Category
Shifts [68.58829338426712]
関連する分類タスクが同じラベル空間を共有し、同時に学習されるマルチタスク分類に焦点を当てる。
我々は、不足クラスのためのタスク間で知識を伝達する関連グラフを学習する。
我々の手法は代表的基準よりも一貫して性能が良い。
論文 参考訳(メタデータ) (2022-10-10T12:37:41Z) - BatchFormer: Learning to Explore Sample Relationships for Robust
Representation Learning [93.38239238988719]
本稿では,各ミニバッチからサンプル関係を学習可能なディープニューラルネットワークを提案する。
BatchFormerは各ミニバッチのバッチ次元に適用され、トレーニング中のサンプル関係を暗黙的に探索する。
我々は10以上のデータセットに対して広範な実験を行い、提案手法は異なるデータ不足アプリケーションにおいて大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-03-03T05:31:33Z) - Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised
Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。
近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。
本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T13:08:11Z) - Using Self-Supervised Pretext Tasks for Active Learning [7.214674613451605]
本稿では,自己教師付きプレテキストタスクとユニークなデータサンプリング機能を利用して,困難かつ代表的なデータを選択する,新しいアクティブラーニング手法を提案する。
プレテキストタスク学習者は、未ラベルのセットでトレーニングされ、未ラベルのデータは、そのプレテキストタスクの損失によって、バッチにソートされ、グループ化される。
各イテレーションでは、メインタスクモデルを使用して、アノテートされるバッチで最も不確実なデータをサンプリングする。
論文 参考訳(メタデータ) (2022-01-19T07:58:06Z) - Multi-domain semantic segmentation with overlapping labels [1.4120796122384087]
本稿では,部分ラベルと確率的損失に基づいて重なり合うクラスを持つデータセットをシームレスに学習する手法を提案する。
本手法は,トレーニングデータセットに別々にラベル付けされていない視覚概念を学習すると同時に,競合するデータセット内およびクロスデータセットの一般化を実現する。
論文 参考訳(メタデータ) (2021-08-25T13:25:41Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z) - Connecting Images through Time and Sources: Introducing Low-data,
Heterogeneous Instance Retrieval [3.6526118822907594]
バリエーションやセマンティックな内容のパネルによく反応する機能を選択するのは簡単ではないことを示す。
Alegoriaベンチマークの新しい拡張バージョンを導入し、詳細なアノテーションを使って記述子を比較します。
論文 参考訳(メタデータ) (2021-03-19T10:54:51Z) - Improving filling level classification with adversarial training [90.01594595780928]
単一画像からカップや飲料グラスのコンテントのレベルを分類する問題について検討する。
汎用ソースデータセットで逆トレーニングを使用し、タスク固有のデータセットでトレーニングを洗練します。
ソース領域における逆学習による伝達学習は,テストセットの分類精度を常に向上させることを示す。
論文 参考訳(メタデータ) (2021-02-08T08:32:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。