論文の概要: Enhance Modality Robustness in Text-Centric Multimodal Alignment with Adversarial Prompting
- arxiv url: http://arxiv.org/abs/2408.09798v1
- Date: Mon, 19 Aug 2024 08:44:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 17:04:37.426977
- Title: Enhance Modality Robustness in Text-Centric Multimodal Alignment with Adversarial Prompting
- Title(参考訳): テキスト中心型マルチモーダルアライメントにおける逆数プロンプトによるモダリティロバスト性向上
- Authors: Yun-Da Tsai, Ting-Yu Yen, Keng-Te Liao, Shou-De Lin,
- Abstract要約: 本研究では, 雑音不完全, 動的入力順序順順, モダリティの欠如に対して, マルチモーダル表現の品質とロバスト性を評価する。
本稿では,従来の頑健なトレーニング手法や事前学習されたマルチモーダル基礎モデルと比較して,頑健さを著しく向上させる新しいテキスト中心の対角訓練手法を提案する。
- 参考スコア(独自算出の注目度): 4.985886792128721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Converting different modalities into generalized text, which then serves as input prompts for large language models (LLMs), is a common approach for aligning multimodal models, particularly when pairwise data is limited. Text-centric alignment method leverages the unique properties of text as a modality space, transforming diverse inputs into a unified textual representation, thereby enabling downstream models to effectively interpret various modal inputs. This study evaluates the quality and robustness of multimodal representations in the face of noise imperfections, dynamic input order permutations, and missing modalities, revealing that current text-centric alignment methods can compromise downstream robustness. To address this issue, we propose a new text-centric adversarial training approach that significantly enhances robustness compared to traditional robust training methods and pre-trained multimodal foundation models. Our findings underscore the potential of this approach to improve the robustness and adaptability of multimodal representations, offering a promising solution for dynamic and real-world applications.
- Abstract(参考訳): 様々なモダリティを一般化されたテキストに変換し、大きな言語モデル(LLM)の入力プロンプトとして機能する。
テキスト中心アライメント法は、テキストのユニークな性質をモダリティ空間として活用し、多様な入力を統一されたテキスト表現に変換することにより、下流モデルで様々なモーダル入力を効果的に解釈することができる。
本研究は, 雑音不完全, 動的入力順序順順, モダリティの欠如に面したマルチモーダル表現の品質とロバスト性を評価し, 現行のテキスト中心アライメント手法が下流のロバスト性を損なうことを示した。
そこで本研究では,従来の頑健なトレーニング手法や事前学習型マルチモーダル基礎モデルと比較して,頑健性を大幅に向上させる,テキスト中心の対角訓練手法を提案する。
本研究は,マルチモーダル表現の堅牢性と適応性を向上させるためのこのアプローチの可能性を明らかにし,動的および実世界のアプリケーションに対して有望なソリューションを提供する。
関連論文リスト
- Enhance the Robustness of Text-Centric Multimodal Alignments [4.985886792128721]
本研究では、欠落したエントリ、ノイズ、欠落したモダリティの存在下でのマルチモーダル表現の品質とロバスト性を評価する。
本稿では,従来の手法に比べて頑健性に優れたテキスト中心型手法を提案する。
論文 参考訳(メタデータ) (2024-07-06T10:12:29Z) - Text-centric Alignment for Multi-Modality Learning [3.6961400222746748]
マルチモーダル学習のためのテキスト中心アライメント(TAMML)を提案する。
テキストのユニークな性質を統一意味空間として活用することにより、TAMMLは目に見えない、多様性があり、予測不可能なモダリティの組み合わせを扱う上で、大幅な改善を示す。
本研究は,モダリティの可用性が動的で不確実な実世界のアプリケーションに対して,フレキシブルで効果的なソリューションを提供することによって,この分野に寄与する。
論文 参考訳(メタデータ) (2024-02-12T22:07:43Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - Cross-Modal Attribute Insertions for Assessing the Robustness of
Vision-and-Language Learning [9.949354222717773]
クロスモーダル属性挿入は、視覚・言語データに対する現実的な摂動戦略である。
モーダル・インサートを用いた入力テキストの増大は,テキスト・ツー・モーダル検索やモーダル・エンターメントにおける最先端のアプローチに悪影響を及ぼすことが判明した。
クラウドソースアノテーションは、クロスモーダルな挿入がマルチモーダルデータの品質向上につながることを示している。
論文 参考訳(メタデータ) (2023-06-19T17:00:03Z) - Iterative Adversarial Attack on Image-guided Story Ending Generation [37.42908817585858]
マルチモーダル学習は、画像やテキストなどの様々なソースからの情報を統合できるモデルを開発することを含む。
最近のIgSEGモデルのバックボーンであるディープニューラルネットワークは、敵のサンプルに対して脆弱である。
画像とテキストのモダリティ攻撃を融合させる反復的逆攻撃法(Iterative- attack)を提案する。
論文 参考訳(メタデータ) (2023-05-16T06:19:03Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。
この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。
提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文 参考訳(メタデータ) (2020-11-03T11:18:04Z) - Multimodal Routing: Improving Local and Global Interpretability of
Multimodal Language Analysis [103.69656907534456]
人間中心のタスクに強いパフォーマンスを持つ最近のマルチモーダル学習は、しばしばブラックボックスである。
本稿では,各入力サンプルに対して,入力モダリティと出力表現の重み付けを異なる方法で調整するマルチモーダルルーティングを提案する。
論文 参考訳(メタデータ) (2020-04-29T13:42:22Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。