論文の概要: Enhance the Robustness of Text-Centric Multimodal Alignments
- arxiv url: http://arxiv.org/abs/2407.05036v1
- Date: Sat, 6 Jul 2024 10:12:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 21:18:15.720686
- Title: Enhance the Robustness of Text-Centric Multimodal Alignments
- Title(参考訳): テキスト中心多モードアライメントのロバスト性を高める
- Authors: Ting-Yu Yen, Yun-Da Tsai, Keng-Te Liao, Shou-De Lin,
- Abstract要約: 本研究では、欠落したエントリ、ノイズ、欠落したモダリティの存在下でのマルチモーダル表現の品質とロバスト性を評価する。
本稿では,従来の手法に比べて頑健性に優れたテキスト中心型手法を提案する。
- 参考スコア(独自算出の注目度): 4.985886792128721
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Converting different modalities into general text, serving as input prompts for large language models (LLMs), is a common method to align multimodal models when there is limited pairwise data. This text-centric approach leverages the unique properties of text as a modality space, transforming diverse inputs into a unified textual representation. This enables downstream models to effectively interpret various modal inputs. This study assesses the quality and robustness of multimodal representations in the presence of missing entries, noise, or absent modalities, revealing that current text-centric alignment methods compromise downstream robustness. To address this issue, we propose a new text-centric approach that achieves superior robustness compared to previous methods across various modalities in different settings. Our findings highlight the potential of this approach to enhance the robustness and adaptability of multimodal representations, offering a promising solution for dynamic and real-world applications.
- Abstract(参考訳): 異なるモダリティを一般的なテキストに変換することで、大きな言語モデル(LLM)の入力プロンプトとして機能する。
このテキスト中心のアプローチは、テキストのユニークな性質をモダリティ空間として活用し、多様な入力を統一されたテキスト表現に変換する。
これにより、下流モデルは様々なモーダル入力を効果的に解釈できる。
本研究は,文章中心のアライメント手法が下流のロバスト性を損なうことを明らかにするために,欠落したエントリやノイズ,あるいは欠落したモダリティの存在下でのマルチモーダル表現の品質とロバスト性を評価する。
この問題に対処するために、異なる設定における様々なモーダル性にまたがる従来の手法と比較して、優れたロバスト性を実現する新しいテキスト中心アプローチを提案する。
本稿は,マルチモーダル表現の堅牢性と適応性を高めるためのこのアプローチの可能性を強調し,動的および実世界のアプリケーションに対して有望なソリューションを提供する。
関連論文リスト
- Enhance Modality Robustness in Text-Centric Multimodal Alignment with Adversarial Prompting [4.985886792128721]
本研究では, 雑音不完全, 動的入力順序順順, モダリティの欠如に対して, マルチモーダル表現の品質とロバスト性を評価する。
本稿では,従来の頑健なトレーニング手法や事前学習されたマルチモーダル基礎モデルと比較して,頑健さを著しく向上させる新しいテキスト中心の対角訓練手法を提案する。
論文 参考訳(メタデータ) (2024-08-19T08:44:55Z) - TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models [69.49978333446538]
TEALは任意のモダリティからの入力をトークンシーケンスとして扱うアプローチである。
トークンシーケンスを学習可能な埋め込み行列で結合埋め込み空間に埋め込む。
実験により、TEALはマルチモーダル理解を大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-11-08T10:34:16Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - Cross-Modal Attribute Insertions for Assessing the Robustness of
Vision-and-Language Learning [9.949354222717773]
クロスモーダル属性挿入は、視覚・言語データに対する現実的な摂動戦略である。
モーダル・インサートを用いた入力テキストの増大は,テキスト・ツー・モーダル検索やモーダル・エンターメントにおける最先端のアプローチに悪影響を及ぼすことが判明した。
クラウドソースアノテーションは、クロスモーダルな挿入がマルチモーダルデータの品質向上につながることを示している。
論文 参考訳(メタデータ) (2023-06-19T17:00:03Z) - Iterative Adversarial Attack on Image-guided Story Ending Generation [37.42908817585858]
マルチモーダル学習は、画像やテキストなどの様々なソースからの情報を統合できるモデルを開発することを含む。
最近のIgSEGモデルのバックボーンであるディープニューラルネットワークは、敵のサンプルに対して脆弱である。
画像とテキストのモダリティ攻撃を融合させる反復的逆攻撃法(Iterative- attack)を提案する。
論文 参考訳(メタデータ) (2023-05-16T06:19:03Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。
この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。
提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文 参考訳(メタデータ) (2020-11-03T11:18:04Z) - Multimodal Routing: Improving Local and Global Interpretability of
Multimodal Language Analysis [103.69656907534456]
人間中心のタスクに強いパフォーマンスを持つ最近のマルチモーダル学習は、しばしばブラックボックスである。
本稿では,各入力サンプルに対して,入力モダリティと出力表現の重み付けを異なる方法で調整するマルチモーダルルーティングを提案する。
論文 参考訳(メタデータ) (2020-04-29T13:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。