論文の概要: Continual learning in cross-modal retrieval
- arxiv url: http://arxiv.org/abs/2104.06806v1
- Date: Wed, 14 Apr 2021 12:13:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:15:42.534009
- Title: Continual learning in cross-modal retrieval
- Title(参考訳): クロスモーダル検索における連続学習
- Authors: Kai Wang, Luis Herranz, Joost van de Weijer
- Abstract要約: 新しいタスクによる干渉が埋め込み空間に与える影響と、効果的な検索に必要な相互モーダルアライメントについて検討する。
トレーニング、インデクシング、クエリの段階を分離する一般的なフレームワークを提案します。
また、忘れてしまう可能性のあるさまざまな要因を特定し、研究し、緩和するためのツールを提案します。
- 参考スコア(独自算出の注目度): 47.73014647702813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal representations and continual learning are two areas closely
related to human intelligence. The former considers the learning of shared
representation spaces where information from different modalities can be
compared and integrated (we focus on cross-modal retrieval between language and
visual representations). The latter studies how to prevent forgetting a
previously learned task when learning a new one. While humans excel in these
two aspects, deep neural networks are still quite limited. In this paper, we
propose a combination of both problems into a continual cross-modal retrieval
setting, where we study how the catastrophic interference caused by new tasks
impacts the embedding spaces and their cross-modal alignment required for
effective retrieval. We propose a general framework that decouples the
training, indexing and querying stages. We also identify and study different
factors that may lead to forgetting, and propose tools to alleviate it. We
found that the indexing stage pays an important role and that simply avoiding
reindexing the database with updated embedding networks can lead to significant
gains. We evaluated our methods in two image-text retrieval datasets, obtaining
significant gains with respect to the fine tuning baseline.
- Abstract(参考訳): マルチモーダル表現と連続学習は、人間の知性と密接に関連する2つの分野である。
前者は、異なるモダリティからの情報を比較・統合できる共有表現空間の学習について考察する(言語と視覚表現間のクロスモーダル検索に焦点を当てる)。
後者は、新しいタスクを学ぶ際に学習したタスクを忘れるのを防ぐ方法を研究する。
人間はこの2つの面で優れているが、ディープニューラルネットワークはまだかなり限られている。
本稿では,両問題を連続的なクロスモーダル検索環境に組み合わせて,新しいタスクによる破滅的な干渉が,効果的な検索に必要な埋め込み空間とクロスモーダルアライメントに与える影響について検討する。
トレーニング,インデックス,クエリの段階を分離する一般的なフレームワークを提案する。
また、忘れることにつながるさまざまな要因を特定し、研究し、それを緩和するためのツールを提案します。
インデクシングの段階は重要な役割を担っており、データベースの再インデックスを更新された埋め込みネットワークで避けることによって大きな利益をもたらす可能性があることがわかった。
本手法を2つの画像テキスト検索データセットで評価し,微調整ベースラインに対して有意な利益を得た。
関連論文リスト
- Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning [23.035725779568587]
ディープニューラルネットワーク(DNN)におけるマルチモーダル性の役割と相互作用について検討する。
以上の結果から,複数のビューと相補的な情報を複数のモーダルから活用することで,より正確かつ堅牢な表現を学習できることが示唆された。
本稿では,各モーダルにおけるデータ点間の関係構造的類似性を利用して,異なるモーダルからの情報の統合と整合化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:58Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Contrastive Cross-Modal Knowledge Sharing Pre-training for
Vision-Language Representation Learning and Retrieval [12.30468719055037]
コントラスト型クロスモーダル知識共有事前学習(COOKIE)を開発した。
最初のモジュールはウェイトシェアリングトランスフォーマーで、ビジュアルエンコーダとテキストエンコーダの頭の上に構築されている。
もう1つは、異なるモデル間で知識を共有することを目的として、特別に設計された3つの対照的な学習である。
論文 参考訳(メタデータ) (2022-07-02T04:08:44Z) - Gap Minimization for Knowledge Sharing and Transfer [24.954256258648982]
本稿では,学習課題間の距離の直感的かつ新しい尺度であるエンファンパシーギャップの概念を紹介する。
性能ギャップをデータおよびアルゴリズムに依存した正規化器とみなすことができ、モデルの複雑さを制御し、より詳細な保証をもたらす。
私たちはこの原理を2つのアルゴリズムでインスタンス化する: 1. gapBoost, トランスファーラーニングのためのソースとターゲットドメイン間のパフォーマンスギャップを明示的に最小化する新規で原則化されたブースティングアルゴリズム; 2. gapMTNN, ギャップ最小化をセマンティック条件マッチングとして再構成する表現学習アルゴリズム
論文 参考訳(メタデータ) (2022-01-26T23:06:20Z) - On the relationship between disentanglement and multi-task learning [62.997667081978825]
ハードパラメータ共有に基づくマルチタスク学習と絡み合いの関係について,より詳しく検討する。
マルチタスクニューラルネットワークトレーニングの過程において, 絡み合いが自然に現れることを示す。
論文 参考訳(メタデータ) (2021-10-07T14:35:34Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - Deep Learning Techniques for Future Intelligent Cross-Media Retrieval [58.20547387332133]
マルチメディア検索は、ビッグデータアプリケーションにおいて重要な役割を果たす。
マルチモーダルなディープラーニングアプローチが直面する課題に応じて,新しい分類法を提供する。
検索によく知られたクロスメディアデータセットを提示する。
論文 参考訳(メタデータ) (2020-07-21T09:49:33Z) - Unsupervised and Interpretable Domain Adaptation to Rapidly Filter
Tweets for Emergency Services [18.57009530004948]
本稿では,TRECインシデントストリームの公開データセットを用いて,危機時に関連するツイートを分類する新しい手法を提案する。
私たちは各タスクに専用の注意層を使用して、モデル解釈可能性を提供しています。
新型コロナウイルスのパンデミックに対するユースケースを提供することで、我々の仕事の実践的な意味を示す。
論文 参考訳(メタデータ) (2020-03-04T06:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。