論文の概要: Can Text-to-image Model Assist Multi-modal Learning for Visual
Recognition with Visual Modality Missing?
- arxiv url: http://arxiv.org/abs/2402.09036v1
- Date: Wed, 14 Feb 2024 09:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 16:20:35.944459
- Title: Can Text-to-image Model Assist Multi-modal Learning for Visual
Recognition with Visual Modality Missing?
- Title(参考訳): 視覚モダリティを欠いた視覚認識のためのテキスト・ツー・イメージモデルはマルチモーダル学習を支援するか?
- Authors: Tiantian Feng and Daniel Yang and Digbalay Bose and Shrikanth
Narayanan
- Abstract要約: 視覚的モダリティの欠如に対するデータ効率の向上とロバスト性をモデル化するためのテキスト・ツー・イメージ・フレームワークであるGTI-MMを提案する。
以上の結果から, 合成画像はトレーニングにおける視覚的データの欠如によるトレーニングデータの効率向上と, トレーニングやテストに関わる視覚的データの欠如によるモデルロバスト性向上に寄与することが示唆された。
- 参考スコア(独自算出の注目度): 37.73329106465031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal learning has emerged as an increasingly promising avenue in
vision recognition, driving innovations across diverse domains ranging from
media and education to healthcare and transportation. Despite its success, the
robustness of multi-modal learning for visual recognition is often challenged
by the unavailability of a subset of modalities, especially the visual
modality. Conventional approaches to mitigate missing modalities in multi-modal
learning rely heavily on algorithms and modality fusion schemes. In contrast,
this paper explores the use of text-to-image models to assist multi-modal
learning. Specifically, we propose a simple but effective multi-modal learning
framework GTI-MM to enhance the data efficiency and model robustness against
missing visual modality by imputing the missing data with generative
transformers. Using multiple multi-modal datasets with visual recognition
tasks, we present a comprehensive analysis of diverse conditions involving
missing visual modality in data, including model training. Our findings reveal
that synthetic images benefit training data efficiency with visual data missing
in training and improve model robustness with visual data missing involving
training and testing. Moreover, we demonstrate GTI-MM is effective with lower
generation quantity and simple prompt techniques.
- Abstract(参考訳): マルチモーダル学習は、メディアや教育、医療、交通など、さまざまな分野のイノベーションを推進し、視覚認識の道としてますます有望なものになりつつある。
その成功にもかかわらず、視覚認識のためのマルチモーダル学習の堅牢性は、モダリティのサブセット、特に視覚モダリティが利用できないためにしばしば挑戦される。
マルチモーダル学習における欠落モダリティを緩和するための従来のアプローチは、アルゴリズムとモダリティ融合スキームに大きく依存している。
対照的に,本稿では,マルチモーダル学習を支援するテキスト・ツー・イメージモデルについて検討する。
具体的には,データの欠落を生成トランスフォーマーで暗示することにより,データの効率と欠落する視覚モダリティに対するモデルロバスト性を高めるための,単純かつ効果的なマルチモーダル学習フレームワークgti-mmを提案する。
視覚認識タスクを含む複数のマルチモーダルデータセットを用いて,モデルトレーニングを含むデータにおける視覚モダリティの欠如を含む多様な条件の包括的解析を行う。
以上の結果から,合成画像はトレーニング中に欠落した視覚データのトレーニング効率が向上し,トレーニングやテストを含む視覚データの欠落によるモデルのロバスト性が向上することが明らかとなった。
さらに,gti-mmは少ない生成量と簡単なプロンプト技術に有効であることを示す。
関連論文リスト
- Multimodal Representation Learning using Adaptive Graph Construction [0.5221459608786241]
マルチモーダルコントラスト学習は、画像やテキストなどの異種ソースからのデータをレバーゲイトすることでニューラルネットワークを訓練する。
任意の数のモダライトから表現を学習できる新しいコントラスト学習フレームワークであるAutoBINDを提案する。
本稿では,AutoBINDが従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-08T21:57:46Z) - Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。
提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。
迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文 参考訳(メタデータ) (2024-07-07T13:55:56Z) - Multi-Task Multi-Modal Self-Supervised Learning for Facial Expression Recognition [6.995226697189459]
In-the-wildビデオデータから表情認識のためのマルチモーダル自己教師学習手法を用いる。
以上の結果から,マルチモーダル・セルフ・スーパービジョン・タスクが課題に対して大きなパフォーマンス向上をもたらすことが示唆された。
トレーニング済みのモデルとソースコードを公開しています。
論文 参考訳(メタデータ) (2024-04-16T20:51:36Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - What Makes for Robust Multi-Modal Models in the Face of Missing
Modalities? [35.19295402483624]
我々は、情報理論の観点から、欠落するモダリティに遭遇するマルチモーダルモデルのシナリオをモデル化する。
UME-MMA(Uni-Modal Ensemble with Missing Modality Adaptation)を紹介する。
UME-MMAは、マルチモーダルモデルのための一様事前訓練重みを用いて特徴抽出を強化し、欠落したモダリティデータ拡張技術を用いて、モダリティのない状況に適応する。
論文 参考訳(メタデータ) (2023-10-10T07:47:57Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。