論文の概要: Contrastive Multimodal Fusion with TupleInfoNCE
- arxiv url: http://arxiv.org/abs/2107.02575v1
- Date: Tue, 6 Jul 2021 12:26:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 13:46:06.743292
- Title: Contrastive Multimodal Fusion with TupleInfoNCE
- Title(参考訳): タプルインフォメーションを用いたマルチモーダル核融合
- Authors: Yunze Liu, Qingnan Fan, Shanghang Zhang, Hao Dong, Thomas Funkhouser,
Li Yi
- Abstract要約: 伝統的なアプローチは、異なるモダリティを対比して、それらの間で共有される情報を学ぶことである。
本研究では,新しいコントラスト学習目標であるTupleInfoNCEを提案する。
タプルインフォメーションNCEは,3つの下流タスクにおいて,それまでの最先端のアートを著しく上回っていることがわかった。
- 参考スコア(独自算出の注目度): 24.93545970229774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a method for representation learning of multimodal data
using contrastive losses. A traditional approach is to contrast different
modalities to learn the information shared between them. However, that approach
could fail to learn the complementary synergies between modalities that might
be useful for downstream tasks. Another approach is to concatenate all the
modalities into a tuple and then contrast positive and negative tuple
correspondences. However, that approach could consider only the stronger
modalities while ignoring the weaker ones. To address these issues, we propose
a novel contrastive learning objective, TupleInfoNCE. It contrasts tuples based
not only on positive and negative correspondences but also by composing new
negative tuples using modalities describing different scenes. Training with
these additional negatives encourages the learning model to examine the
correspondences among modalities in the same tuple, ensuring that weak
modalities are not ignored. We provide a theoretical justification based on
mutual information for why this approach works, and we propose a sample
optimization algorithm to generate positive and negative samples to maximize
training efficacy. We find that TupleInfoNCE significantly outperforms the
previous state of the arts on three different downstream tasks.
- Abstract(参考訳): 本稿では,比較損失を用いたマルチモーダルデータの表現学習手法を提案する。
伝統的なアプローチは、異なるモダリティを対比して、それらの間で共有される情報を学ぶことである。
しかしながら、このアプローチは、ダウンストリームタスクに有用なモダリティ間の相補的なシナジーを学習できない可能性がある。
もう一つのアプローチは、すべてのモジュラリティをタプルに結合し、正と負のタプル対応を対比させることである。
しかし、このアプローチは弱いモダリティを無視しながら、より強いモダリティのみを考慮できる。
これらの問題に対処するため,我々は新しいコントラスト学習目標タプレインフォインスを提案する。
正と負の対応に基づくタプルとは対照的に、異なる場面を記述するモダリティを用いて新しい負のタプルを構成する。
これらの追加的な否定性を持つトレーニングは、学習モデルに同じタプルのモダリティ間の対応を調べるように促し、弱いモダリティが無視されないようにする。
本稿では,このアプローチの動作理由の相互情報に基づく理論的正当性を提案し,正および負のサンプルを生成するサンプル最適化アルゴリズムを提案する。
タプルインフォメーションは,3つのダウンストリームタスクにおいて,前回のstate of the artsを大きく上回っていることが分かりました。
関連論文リスト
- DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Unsupervised Voice-Face Representation Learning by Cross-Modal Prototype
Contrast [34.58856143210749]
同一性ラベルを使わずに,音声映像から音声表現を学習する手法を提案する。
これまでの研究では、音声と顔の相関を確立するために、クロスモーダルなインスタンス識別タスクが用いられてきた。
比較手法を生かし, 偽陰性の悪影響に抵抗し, 正の逸脱に抵抗するクロスモーダル・プロトタイプ・コントラッシブ・ラーニング(CMPC)を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:28:56Z) - Understanding Contrastive Learning Requires Incorporating Inductive
Biases [64.56006519908213]
下流タスクにおけるコントラスト学習の成功を理論的に説明しようとする最近の試みは、エム強化の特性とエムコントラスト学習の損失の値によって保証が証明されている。
このような分析は,関数クラスやトレーニングアルゴリズムの帰納的バイアスを無視し,いくつかの設定において不確実な保証につながることを実証する。
論文 参考訳(メタデータ) (2022-02-28T18:59:20Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Neighborhood Contrastive Learning for Scientific Document
Representations with Citation Embeddings [35.879758282914565]
以前の研究は、コントラストサンプルを生成するために離散的な励起関係に依存していた。
提案手法では, 参照グラフの埋め込みに近接する近距離サンプリングをコントラスト学習に用いる。
その結果、SciNCLはSciDocsベンチマークの最先端よりも優れている。
論文 参考訳(メタデータ) (2022-02-14T12:57:37Z) - Adversarial Training with Contrastive Learning in NLP [0.0]
本稿では,言語処理タスクを逆学習するために,比較学習(ATCL)を用いた逆学習を提案する。
中心となる考え方は、高速勾配法(FGM)によって入力の埋め込み空間に線形摂動を生じさせ、元の表現と摂動表現を対照的な学習によって密に保つようモデルを訓練することである。
この結果から, 定量的(複雑度, BLEU) のスコアは, ベースラインに比べて向上しただけでなく, 両タスクのセマンティックレベルにおいても, 質的な結果が得られた。
論文 参考訳(メタデータ) (2021-09-19T07:23:45Z) - Investigating the Role of Negatives in Contrastive Representation
Learning [59.30700308648194]
ノイズコントラスト学習は教師なし表現学習の一般的な手法である。
我々は、これらのパラメータの1つの役割の曖昧さ、すなわち負の例の数に焦点をあてる。
結果が我々の理論と広く一致しているのに対して、我々の視覚実験はより悪質であり、性能は時々負の数に敏感である。
論文 参考訳(メタデータ) (2021-06-18T06:44:16Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Disentangled Contrastive Learning for Learning Robust Textual
Representations [13.880693856907037]
運動量表現一貫性の概念を導入し,特徴を整合させ,一様性に適合しながらパワー正規化を活用する。
NLPベンチマークの実験結果から,本手法はベースラインよりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2021-04-11T03:32:49Z) - Contrastive Learning with Hard Negative Samples [80.12117639845678]
我々は, 厳密な陰性サンプルを選択するために, 教師なしサンプリング手法を新たに開発する。
このサンプリングの制限ケースは、各クラスをしっかりとクラスタ化し、可能な限り異なるクラスを遠くにプッシュする表現をもたらす。
提案手法は、複数のモードをまたいだダウンストリーム性能を改善し、実装するコード行数が少なく、計算オーバーヘッドを伴わない。
論文 参考訳(メタデータ) (2020-10-09T14:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。