Fugu-MT 論文翻訳(概要): Improving Multi-Modal Learning with Uni-Modal Teachers

論文の概要: Improving Multi-Modal Learning with Uni-Modal Teachers

arxiv url: http://arxiv.org/abs/2106.11059v1
Date: Mon, 21 Jun 2021 12:46:47 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-22 15:21:51.437123
Title: Improving Multi-Modal Learning with Uni-Modal Teachers
Title（参考訳）: ユニモーダル教師によるマルチモーダル学習の改善
Authors: Chenzhuang Du, Tingle Li, Yichen Liu, Zixin Wen, Tianyu Hua, Yue Wang, Hang Zhao
Abstract要約: そこで本研究では,融合目標と一様蒸留を組み合わせたマルチモーダル学習手法Uni-Modal Teacherを提案する。提案手法は,各モードの表現を劇的に改善するだけでなく,総合的なマルチモーダルタスク性能も向上することを示す。
参考スコア（独自算出の注目度）: 14.917618203952479
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning multi-modal representations is an essential step towards real-world robotic applications, and various multi-modal fusion models have been developed for this purpose. However, we observe that existing models, whose objectives are mostly based on joint training, often suffer from learning inferior representations of each modality. We name this problem Modality Failure, and hypothesize that the imbalance of modalities and the implicit bias of common objectives in fusion method prevent encoders of each modality from sufficient feature learning. To this end, we propose a new multi-modal learning method, Uni-Modal Teacher, which combines the fusion objective and uni-modal distillation to tackle the modality failure problem. We show that our method not only drastically improves the representation of each modality, but also improves the overall multi-modal task performance. Our method can be effectively generalized to most multi-modal fusion approaches. We achieve more than 3% improvement on the VGGSound audio-visual classification task, as well as improving performance on the NYU depth V2 RGB-D image segmentation task.
Abstract（参考訳）: マルチモーダル表現の学習は,実世界のロボット応用に向けた重要なステップであり,そのために様々なマルチモーダル融合モデルが開発されている。しかし, 既存のモデルでは, ほとんどが共同学習に基づくモデルであり, それぞれのモダリティの劣等な表現の学習に苦しむことが多い。この問題モダリティの失敗を命名し、融合法におけるモダリティの不均衡と共通の目的の暗黙のバイアスは、各モダリティのエンコーダが十分な特徴学習を妨げると仮定する。そこで本研究では, 融合目的とユニモーダル蒸留を組み合わせたマルチモーダル学習法であるuni-modal teacherを提案する。提案手法は各モードの表現を劇的に改善するだけでなく,全体のマルチモーダルタスク性能も向上することを示す。我々の方法は、ほとんどのマルチモーダル融合アプローチに効果的に一般化することができる。我々は、VGGSound音声視覚分類タスクにおいて3%以上の改善を達成し、NYU深度V2 RGB-D画像セグメンテーションタスクの性能を改善した。

関連論文リスト

Harmony: A Unified Framework for Modality Incremental Learning [81.13765007314781]
本稿では,連続的に進化するモーダルシーケンスを横断するインクリメンタル学習が可能な統一モデルの実現可能性について検討する。本研究では,適応的アライメントと知識保持を実現するために,Harmonyという新しいフレームワークを提案する。提案手法は適応性のある特徴変調と累積的モーダルブリッジングを導入する。
論文参考訳（メタデータ） (2025-04-17T06:35:01Z)
Efficient Audiovisual Speech Processing via MUTUD: Multimodal Training and Unimodal Deployment [19.067586642181368]
信頼できる音声システムを構築するには、オーディオや視覚的手がかりなど、複数のモダリティを組み合わせる必要があることが多い。本稿では,TAMEモジュールを含むMultimodal Training and Unimodal Deployment(MUTUD)フレームワークを提案する。この革新的なアプローチは、異なるモーダル間の情報の統合を促進し、各モーダルの強さを活用して、推論中に特定のモーダルが存在しないことを補うことによって、全体的な推論プロセスを強化する。
論文参考訳（メタデータ） (2025-01-30T05:46:30Z)
On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文参考訳（メタデータ） (2024-10-15T13:15:50Z)
M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文参考訳（メタデータ） (2024-09-24T01:40:24Z)
MMPareto: Boosting Multimodal Learning with Innocent Unimodal Assistance [10.580712937465032]
従来無視されていた多モーダル学習目標と単モーダル学習目標との勾配の衝突を同定する。 MMParetoアルゴリズムを提案することで、学習目的に共通する方向の最終的な勾配を確保することができる。また,タスクの難易度に明確な相違点のあるマルチタスクケースも容易に行えることが期待されている。
論文参考訳（メタデータ） (2024-05-28T01:19:13Z)
Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。 MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文参考訳（メタデータ） (2023-11-17T18:57:40Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Improving Discriminative Multi-Modal Learning with Large-Scale Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。 MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文参考訳（メタデータ） (2023-10-08T15:01:54Z)
VideoAdviser: Video Knowledge Distillation for Multimodal Transfer Learning [6.379202839994046]
マルチモーダル変換学習は、様々なモーダルの事前訓練された表現を、効果的なマルチモーダル融合のための共通の領域空間に変換することを目的としている。本稿では,マルチモーダル基本モデルから特定のモーダル基本モデルへ,マルチモーダルなプロンプトのマルチモーダルな知識を伝達するためのビデオ知識蒸留手法であるVideoAdviserを提案する。本手法は,映像レベルの感情分析と音声視覚検索の2つの課題において評価する。
論文参考訳（メタデータ） (2023-09-27T08:44:04Z)
Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文参考訳（メタデータ） (2023-06-22T10:53:10Z)
On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文参考訳（メタデータ） (2023-05-02T07:15:10Z)
Balanced Multimodal Learning via On-the-fly Gradient Modulation [10.5602074277814]
マルチモーダル学習は、異なる感覚を統合することで、世界を包括的に理解するのに役立つ。学習目標に対する貢献の相違をモニタリングすることで,各モードの最適化を適応的に制御するオンザフライ勾配変調を提案する。
論文参考訳（メタデータ） (2022-03-29T08:26:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。