Fugu-MT 論文翻訳(概要): Borrowing Treasures from Neighbors: In-Context Learning for Multimodal Learning with Missing Modalities and Data Scarcity

論文の概要: Borrowing Treasures from Neighbors: In-Context Learning for Multimodal Learning with Missing Modalities and Data Scarcity

arxiv url: http://arxiv.org/abs/2403.09428v2
Date: Tue, 26 Mar 2024 17:38:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 21:34:22.532025
Title: Borrowing Treasures from Neighbors: In-Context Learning for Multimodal Learning with Missing Modalities and Data Scarcity
Title（参考訳）: 近隣住民からの宝の借用--モダリティとデータスカシティを欠いたマルチモーダルラーニングのためのインテクストラーニング
Authors: Zhuo Zhi, Ziquan Liu, Moe Elbadawi, Adam Daneshmend, Mine Orlu, Abdul Basit, Andreas Demosthenous, Miguel Rodrigues,
Abstract要約: 本稿では、欠落したモダリティに関する現在の研究を低データ体制に拡張する。フルモダリティデータと十分なアノテートされたトレーニングサンプルを取得することは、しばしばコストがかかる。本稿では,この2つの重要な問題に対処するために,検索強化したテキスト内学習を提案する。
参考スコア（独自算出の注目度）: 9.811378971225727
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal machine learning with missing modalities is an increasingly relevant challenge arising in various applications such as healthcare. This paper extends the current research into missing modalities to the low-data regime, i.e., a downstream task has both missing modalities and limited sample size issues. This problem setting is particularly challenging and also practical as it is often expensive to get full-modality data and sufficient annotated training samples. We propose to use retrieval-augmented in-context learning to address these two crucial issues by unleashing the potential of a transformer's in-context learning ability. Diverging from existing methods, which primarily belong to the parametric paradigm and often require sufficient training samples, our work exploits the value of the available full-modality data, offering a novel perspective on resolving the challenge. The proposed data-dependent framework exhibits a higher degree of sample efficiency and is empirically demonstrated to enhance the classification model's performance on both full- and missing-modality data in the low-data regime across various multimodal learning tasks. When only 1% of the training data are available, our proposed method demonstrates an average improvement of 6.1% over a recent strong baseline across various datasets and missing states. Notably, our method also reduces the performance gap between full-modality and missing-modality data compared with the baseline.
Abstract（参考訳）: モダリティの欠如を伴うマルチモーダル機械学習は、医療などの様々な応用において、ますます関連する課題となっている。本報告では, ダウンストリームタスクには, モダリティの欠落とサンプルサイズの問題の両方がある。この問題設定は、フルモダリティデータと十分なアノテートされたトレーニングサンプルを取得するのにしばしばコストがかかるため、特に困難で実用的でもある。本稿では,この2つの重要な問題に対して,変換器のテキスト内学習能力の可能性を解き放つことにより,検索強化型インコンテキスト学習を提案する。パラメトリックパラダイムに主に属し,十分なトレーニングサンプルを必要とする既存の手法から逸脱した当社の作業は,利用可能なフルモダリティデータの価値を活用し,課題を解決するための新たな視点を提供する。提案したデータ依存フレームワークは,より高いサンプル効率を示し,様々なマルチモーダル学習タスクにおいて,低データ体系における全モードデータと欠落モードデータの両方において,分類モデルの性能を向上させることを実証的に実証している。トレーニングデータの1%しか利用できない場合、提案手法は、様々なデータセットや欠落状態に対する最近の強いベースラインよりも平均6.1%改善されていることを示す。また,本手法は,ベースラインと比較して,完全モダリティと欠落モダリティの差を小さくする。

関連論文リスト

Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。 RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文参考訳（メタデータ） (2025-06-05T08:40:24Z)
Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文参考訳（メタデータ） (2025-05-19T15:43:10Z)
Efficient Prompting for Continual Adaptation to Missing Modalities [7.782217188939437]
動的欠落モード問題を連続学習課題として定式化する。モータリティ特化プロンプト,タスク認識,タスク特化プロンプトの3種類を紹介する。これらのプロンプトにより、モデルはモダリティ内、モダリティ間、タスク内、タスク間の特徴を学ぶことができる。
論文参考訳（メタデータ） (2025-03-01T15:09:37Z)
PAL: Prompting Analytic Learning with Missing Modality for Multi-Modal Class-Incremental Learning [42.00851701431368]
マルチモーダルクラスインクリメンタルラーニング(MMCIL)は、音声と視覚、画像とテキストのペアのようなマルチモーダルデータを活用する。重要な課題は、漸進的な学習フェーズにおけるモダリティの欠如である。 PALは, MMCILに適合した, モダリティの欠如を前提とした, 斬新なフレームワークである。
論文参考訳（メタデータ） (2025-01-16T08:04:04Z)
Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,複数モーダルからインスタンスを識別するクロスモーダルなFew-Shot Learningタスクを提案する。本稿では,1つの段階からなる生成的転帰学習フレームワークを提案する。1つは豊富な一助データに対する学習を伴い,もう1つは新しいデータに適応するための転帰学習に焦点を当てる。以上の結果から,GTLは4つの異なるマルチモーダルデータセット間の最先端手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T16:09:38Z)
Deep Multimodal Learning with Missing Modality: A Survey [12.873458712005037]
欠落したモダリティを扱うために設計されたマルチモーダル学習技術は、これを緩和することができる。本調査は,Multimodal Learning with Missing Modality (MLMM)の最近の進歩を概観する。
論文参考訳（メタデータ） (2024-09-12T08:15:39Z)
Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-17T14:44:25Z)
Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文参考訳（メタデータ） (2024-07-07T13:55:56Z)
Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。 MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文参考訳（メタデータ） (2024-04-23T16:01:33Z)
Data-CUBE: Data Curriculum for Instruction-based Sentence Representation Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文参考訳（メタデータ） (2024-01-07T18:12:20Z)
Robust Multimodal Learning with Missing Modalities via Parameter-Efficient Adaptation [16.17270247327955]
本稿では,事前学習型マルチモーダルネットワークに対するシンプルでパラメータ効率の良い適応手法を提案する。このような適応は、モダリティの欠如による性能低下を部分的に補うことができることを示す。提案手法は,様々なタスクやデータセットにまたがる汎用性を実証し,モダリティの欠如による頑健なマルチモーダル学習法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-10-06T03:04:21Z)
SUMMIT: Source-Free Adaptation of Uni-Modal Models to Multi-Modal Targets [30.262094419776208]
現在のアプローチでは、ソースデータが適応中に利用可能であり、ソースはペア化されたマルチモーダルデータで構成されていると仮定している。本稿では,2つの相補的な擬似ラベル融合法を自動選択するスイッチングフレームワークを提案する。提案手法は,mIoUが競合するベースラインよりも最大12%向上することを示す。
論文参考訳（メタデータ） (2023-08-23T02:57:58Z)
Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文参考訳（メタデータ） (2023-06-22T10:53:10Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文参考訳（メタデータ） (2022-02-25T13:47:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。