論文の概要: MM-Align: Learning Optimal Transport-based Alignment Dynamics for Fast
and Accurate Inference on Missing Modality Sequences
- arxiv url: http://arxiv.org/abs/2210.12798v1
- Date: Sun, 23 Oct 2022 17:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 13:02:24.221117
- Title: MM-Align: Learning Optimal Transport-based Alignment Dynamics for Fast
and Accurate Inference on Missing Modality Sequences
- Title(参考訳): MM-Align:ミスモード列の高速かつ正確な推論のための最適輸送ベースアライメントダイナミクスの学習
- Authors: Wei Han, Hui Chen, Min-Yen Kan, Soujanya Poria
- Abstract要約: 本稿では,MM-Align という新しい手法を提案する。
MM-Alignは、モダリティシーケンス間のアライメントのダイナミクスをキャプチャし、模倣することを学ぶ。
提案手法は, より正確で高速な推定を行い, 種々の不足条件下での過度適合を緩和することができる。
- 参考スコア(独自算出の注目度): 32.42505193560884
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Existing multimodal tasks mostly target at the complete input modality
setting, i.e., each modality is either complete or completely missing in both
training and test sets. However, the randomly missing situations have still
been underexplored. In this paper, we present a novel approach named MM-Align
to address the missing-modality inference problem. Concretely, we propose 1) an
alignment dynamics learning module based on the theory of optimal transport
(OT) for indirect missing data imputation; 2) a denoising training algorithm to
simultaneously enhance the imputation results and backbone network performance.
Compared with previous methods which devote to reconstructing the missing
inputs, MM-Align learns to capture and imitate the alignment dynamics between
modality sequences. Results of comprehensive experiments on three datasets
covering two multimodal tasks empirically demonstrate that our method can
perform more accurate and faster inference and relieve overfitting under
various missing conditions.
- Abstract(参考訳): 既存のマルチモーダルタスクは、主に完全な入力モダリティ設定、すなわち、各モダリティは、トレーニングセットとテストセットの両方で完全にあるいは完全に欠落している。
しかし、ランダムに失われた状況は未調査のままである。
本稿では,MM-Align という新しい手法を提案する。
具体的には
1) 間接的欠落データ計算のための最適輸送(OT)理論に基づくアライメントダイナミクス学習モジュール
2) インプテーション結果とバックボーンネットワーク性能を同時に向上させるデノイジングトレーニングアルゴリズム。
欠落した入力を再構築する以前の方法と比較して、mm-alignはモダリティシーケンス間のアライメントダイナミクスをキャプチャし模倣することを学ぶ。
2つのマルチモーダルタスクをカバーする3つのデータセットの総合的な実験結果から,提案手法がより正確で高速な推論を実現し,様々な不足条件下でのオーバーフィッティングを緩和できることが実証された。
関連論文リスト
- Multimodal Fusion Balancing Through Game-Theoretic Regularization [3.2065271838977627]
アンサンブルのような単純なベースラインを超越したマルチモーダルモデルの訓練には,現在のバランス手法が苦戦していることを示す。
マルチモーダルトレーニングにおけるすべてのモダリティが十分にトレーニングされていること、新しいモダリティからの学習が一貫してパフォーマンスを改善することを保証するにはどうすればよいのか?
本稿では,相互情報(MI)分解にインスパイアされた新たな損失成分であるMCRを提案する。
論文 参考訳(メタデータ) (2024-11-11T19:53:05Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Efficient Remote Sensing with Harmonized Transfer Learning and Modality Alignment [0.0]
ハーモナイズドトランスファーラーニングとモダリティアライメント(HarMA)は,タスク制約,モダリティアライメント,単一モダリティアライメントを同時に満足する手法である。
HarMAはリモートセンシング分野における2つの一般的なマルチモーダル検索タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-04-28T17:20:08Z) - Borrowing Treasures from Neighbors: In-Context Learning for Multimodal Learning with Missing Modalities and Data Scarcity [9.811378971225727]
本稿では、欠落したモダリティに関する現在の研究を低データ体制に拡張する。
フルモダリティデータと十分なアノテートされたトレーニングサンプルを取得することは、しばしばコストがかかる。
本稿では,この2つの重要な問題に対処するために,検索強化したテキスト内学習を提案する。
論文 参考訳(メタデータ) (2024-03-14T14:19:48Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。