論文の概要: MM-Align: Learning Optimal Transport-based Alignment Dynamics for Fast
and Accurate Inference on Missing Modality Sequences
- arxiv url: http://arxiv.org/abs/2210.12798v1
- Date: Sun, 23 Oct 2022 17:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 13:02:24.221117
- Title: MM-Align: Learning Optimal Transport-based Alignment Dynamics for Fast
and Accurate Inference on Missing Modality Sequences
- Title(参考訳): MM-Align:ミスモード列の高速かつ正確な推論のための最適輸送ベースアライメントダイナミクスの学習
- Authors: Wei Han, Hui Chen, Min-Yen Kan, Soujanya Poria
- Abstract要約: 本稿では,MM-Align という新しい手法を提案する。
MM-Alignは、モダリティシーケンス間のアライメントのダイナミクスをキャプチャし、模倣することを学ぶ。
提案手法は, より正確で高速な推定を行い, 種々の不足条件下での過度適合を緩和することができる。
- 参考スコア(独自算出の注目度): 32.42505193560884
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Existing multimodal tasks mostly target at the complete input modality
setting, i.e., each modality is either complete or completely missing in both
training and test sets. However, the randomly missing situations have still
been underexplored. In this paper, we present a novel approach named MM-Align
to address the missing-modality inference problem. Concretely, we propose 1) an
alignment dynamics learning module based on the theory of optimal transport
(OT) for indirect missing data imputation; 2) a denoising training algorithm to
simultaneously enhance the imputation results and backbone network performance.
Compared with previous methods which devote to reconstructing the missing
inputs, MM-Align learns to capture and imitate the alignment dynamics between
modality sequences. Results of comprehensive experiments on three datasets
covering two multimodal tasks empirically demonstrate that our method can
perform more accurate and faster inference and relieve overfitting under
various missing conditions.
- Abstract(参考訳): 既存のマルチモーダルタスクは、主に完全な入力モダリティ設定、すなわち、各モダリティは、トレーニングセットとテストセットの両方で完全にあるいは完全に欠落している。
しかし、ランダムに失われた状況は未調査のままである。
本稿では,MM-Align という新しい手法を提案する。
具体的には
1) 間接的欠落データ計算のための最適輸送(OT)理論に基づくアライメントダイナミクス学習モジュール
2) インプテーション結果とバックボーンネットワーク性能を同時に向上させるデノイジングトレーニングアルゴリズム。
欠落した入力を再構築する以前の方法と比較して、mm-alignはモダリティシーケンス間のアライメントダイナミクスをキャプチャし模倣することを学ぶ。
2つのマルチモーダルタスクをカバーする3つのデータセットの総合的な実験結果から,提案手法がより正確で高速な推論を実現し,様々な不足条件下でのオーバーフィッティングを緩和できることが実証された。
関連論文リスト
- Borrowing Treasures from Neighbors: In-Context Learning for Multimodal Learning with Missing Modalities and Data Scarcity [9.811378971225727]
本稿では、欠落したモダリティに関する現在の研究を低データ体制に拡張する。
フルモダリティデータと十分なアノテートされたトレーニングサンプルを取得することは、しばしばコストがかかる。
本稿では,この2つの重要な問題に対処するために,検索強化したテキスト内学習を提案する。
論文 参考訳(メタデータ) (2024-03-14T14:19:48Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Two-Stage Triplet Loss Training with Curriculum Augmentation for
Audio-Visual Retrieval [3.164991885881342]
クロス検索モデルは堅牢な埋め込み空間を学習する。
この問題に対処するために,カリキュラム学習に根ざした新しいアプローチを導入する。
本稿では,モデルの学習過程をセミハードからハードトリップにガイドする2段階の学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-20T12:35:54Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - SMIL: Multimodal Learning with Severely Missing Modality [30.184852244696096]
自由度(トレーニング,テスト,あるいはその両方におけるモダリティを許容する)と効率性(ほとんどのトレーニングデータは不完全モダリティを持つ)の観点から,モダリティを欠いたマルチモーダル学習について検討する。
技術的には,ベイジアンメタラーニングを利用して両目的を均一に達成するSMILという新しい手法を提案する。
その結果,自己エンコーダや生成敵ネットワークを含む既存の手法および生成ベースラインよりもSMILの最先端性能が証明された。
論文 参考訳(メタデータ) (2021-03-09T19:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。