論文の概要: UniCat: Crafting a Stronger Fusion Baseline for Multimodal
Re-Identification
- arxiv url: http://arxiv.org/abs/2310.18812v1
- Date: Sat, 28 Oct 2023 20:30:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 16:15:13.097043
- Title: UniCat: Crafting a Stronger Fusion Baseline for Multimodal
Re-Identification
- Title(参考訳): UniCat:マルチモーダル再同定のためのより強力な核融合ベースラインの構築
- Authors: Jennifer Crawford, Haoli Yin, Luke McDermott, Daniel Cummings
- Abstract要約: 遅延融合法は, 単独でモダリティを訓練する手法と比較して, 最適潜伏表現をしばしば生み出すことを示す。
この効果は主に、核融合の際の個々のモダリティに対するトレーニング目標の意図しない緩和によるものであると我々は主張する。
また,UniCat(uniCat)や,非modalバックボーン(unimodal backbones)の遅延アンサンブルが,複数のマルチモーダルReIDベンチマークで現在最先端の性能を上回っていることも確認した。
- 参考スコア(独自算出の注目度): 0.9831489366502301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Re-Identification (ReID) is a popular retrieval task that aims to
re-identify objects across diverse data streams, prompting many researchers to
integrate multiple modalities into a unified representation. While such fusion
promises a holistic view, our investigations shed light on potential pitfalls.
We uncover that prevailing late-fusion techniques often produce suboptimal
latent representations when compared to methods that train modalities in
isolation. We argue that this effect is largely due to the inadvertent
relaxation of the training objectives on individual modalities when using
fusion, what others have termed modality laziness. We present a nuanced
point-of-view that this relaxation can lead to certain modalities failing to
fully harness available task-relevant information, and yet, offers a protective
veil to noisy modalities, preventing them from overfitting to task-irrelevant
data. Our findings also show that unimodal concatenation (UniCat) and other
late-fusion ensembling of unimodal backbones, when paired with best-known
training techniques, exceed the current state-of-the-art performance across
several multimodal ReID benchmarks. By unveiling the double-edged sword of
"modality laziness", we motivate future research in balancing local modality
strengths with global representations.
- Abstract(参考訳): マルチモーダル再識別(reid:multimodal re-identification)は、さまざまなデータストリームにまたがるオブジェクトを再識別することを目的とした、一般的な検索タスクである。
このような融合は総合的な見方を約束するが、我々の調査は潜在的な落とし穴に光を当てた。
我々は, 遅延拡散法が分離したモードを訓練する手法と比較して, 準最適潜在表現を生じることが多いことを明らかにする。
この効果は主に、融合を用いた場合の個別のモダリティに対するトレーニング目標の意図しない緩和によるものであり、他の者はモダリティ・ラジネス(Modality laziness)と呼ぶ。
我々は、この緩和が、利用可能なタスク関連情報を十分に活用できない特定のモダリティに繋がる可能性があるというニュアンスな視点を示し、しかしながら、ノイズの多いモダリティに対する保護的ベールを提供し、タスク関連データへの過度な適合を防止する。
また,unimodal concatenation (unicat) と他の後期融合型ユニモーダルバックボーンは,よく知られたトレーニング技術と組み合わせると,複数のマルチモーダルreidベンチマークで現在の最先端のパフォーマンスを上回った。
モダリティ・ラジネス(modality laziness)」という二重刃の剣を披露することで、我々は地域モダリティの強さとグローバル表現のバランスをとるための将来の研究を動機付ける。
関連論文リスト
- Improving Multimodal Sentiment Analysis: Supervised Angular Margin-based
Contrastive Learning for Enhanced Fusion Representation [10.44888349041063]
マルチモーダル・センティメント・アナリティクスのためのコントラシブ・ラーニング・フレームワークであるSupervised Angularを導入する。
この枠組みは,マルチモーダル表現の識別と一般化性を高め,融合ベクトルのモダリティのバイアスを克服することを目的としている。
論文 参考訳(メタデータ) (2023-12-04T02:58:19Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - One-stage Modality Distillation for Incomplete Multimodal Learning [7.791488931628906]
本稿では,特権的知識伝達とモダリティ情報融合を一体化する一段階のモダリティ蒸留フレームワークを提案する。
提案手法は,各シーンにおける不完全なモダリティ入力の問題を克服し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-15T07:12:27Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Robustness of Fusion-based Multimodal Classifiers to Cross-Modal Content
Dilutions [27.983902791798965]
画像と既存のテキストとの関連性やトピックのコヒーレンスを維持する希釈テキストを生成するモデルを開発する。
その結果,タスク固有の融合型マルチモーダル分類器の性能はそれぞれ23.3%,22.5%低下することがわかった。
我々の研究は、深いマルチモーダルモデルの現実的な変動に対する堅牢性について、さらなる研究をハイライトし、奨励することを目的としている。
論文 参考訳(メタデータ) (2022-11-04T17:58:02Z) - Progressive Fusion for Multimodal Integration [12.94175198001421]
本稿では,後期融合表現の問題を緩和する,プログレッシブ・フュージョン(Progressive Fusion)と呼ばれる反復的表現洗練手法を提案する。
提案手法は,MSEの5%削減,マルチモーダル時系列予測におけるロバストネスの40%向上など,一貫した性能向上を図っている。
論文 参考訳(メタデータ) (2022-09-01T09:08:33Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Hybrid Contrastive Learning of Tri-Modal Representation for Multimodal
Sentiment Analysis [18.4364234071951]
我々は,三モーダル表現のハイブリッドコントラスト学習のための新しいフレームワークHyConを提案する。
具体的には,モーダル内・モーダル内コントラスト学習と半コントラスト学習を同時に行う。
提案手法は既存の作業より優れている。
論文 参考訳(メタデータ) (2021-09-04T06:04:21Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。