Fugu-MT 論文翻訳(概要): Robust Latent Representation Tuning for Image-text Classification

論文の概要: Robust Latent Representation Tuning for Image-text Classification

arxiv url: http://arxiv.org/abs/2406.06048v1
Date: Mon, 10 Jun 2024 06:29:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 14:46:46.909026
Title: Robust Latent Representation Tuning for Image-text Classification
Title（参考訳）: 画像テキスト分類のためのロバスト遅延表現調整
Authors: Hao Sun, Yu Song,
Abstract要約: 大規模モデルに対する頑健な潜在表現チューニング手法を提案する。具体的には,モダリティ間の相関を最大化するために,モダリティ潜在翻訳モジュールを導入する。このフレームワークでは、トレーニング中に洗練される一般的な意味論だけでなく、1つのモダリティが存在しない場合にも堅牢な表現が得られる。
参考スコア（独自算出の注目度）: 9.789498730131607
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large models have demonstrated exceptional generalization capabilities in computer vision and natural language processing. Recent efforts have focused on enhancing these models with multimodal processing abilities. However, addressing the challenges posed by scenarios where one modality is absent remains a significant hurdle. In response to this issue, we propose a robust latent representation tuning method for large models. Specifically, our approach introduces a modality latent translation module to maximize the correlation between modalities. Following this, a newly designed fusion module is employed to facilitate information interaction between the modalities. In this framework, not only are common semantics refined during training, but the method also yields robust representations in the absence of one modality. Importantly, our method maintains the frozen state of the image and text foundation models to preserve their abilities acquired through large-scale pretraining. We conduct experiments on several public datasets, and the results underscore the effectiveness of our proposed method.
Abstract（参考訳）: 大規模モデルはコンピュータビジョンと自然言語処理において例外的な一般化能力を示した。近年の取り組みは、これらのモデルをマルチモーダル処理能力で強化することに重点を置いている。しかし、1つのモダリティが欠如しているシナリオによって引き起こされる課題に対処することは、依然として大きなハードルである。そこで本研究では,大規模モデルに対する頑健な潜在表現チューニング手法を提案する。具体的には,モダリティ間の相関を最大化するために,モダリティ潜在翻訳モジュールを導入する。その後、モジュール間の情報交換を容易にするために、新しく設計された融合モジュールが使用される。このフレームワークでは、トレーニング中に洗練される一般的な意味論だけでなく、1つのモダリティが存在しない場合にも堅牢な表現が得られる。重要なことは、大規模な事前学習によって得られた能力を維持するために、画像とテキストの基礎モデルの凍結状態を維持することである。いくつかの公開データセットで実験を行い,提案手法の有効性を実証した。

関連論文リスト

Plug, Play, and Fortify: A Low-Cost Module for Robust Multimodal Image Understanding Models [6.350443894942629]
MWAM(Multimodal Weight Allocation Module)は、トレーニング中の各ブランチのコントリビューションを動的に再バランスするプラグイン・アンド・プレイコンポーネントである。 MWAMは幅広いタスクとモダリティの組み合わせで一貫したパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2026-02-26T05:51:41Z)
Towards General Modality Translation with Contrastive and Predictive Latent Diffusion Bridge [16.958159611661813]
Latent Denoising Diffusion Bridge Model (LDDBM)は、モーダル翻訳のための汎用フレームワークである。共用ラテント空間で演算することにより、任意のモード間のブリッジを、整列次元を必要とせずに学習する。提案手法は任意のモダリティペアをサポートし,マルチビューから3次元形状生成,画像超解像,マルチビューシーン合成など,多様なMTタスクに強く依存する。
論文参考訳（メタデータ） (2025-10-23T17:59:54Z)
MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
Relative Overfitting and Accept-Reject Framework [5.465098504510676]
本稿では,性能向上のためにモデルをセグメント化する方法を管理するアンサンブルフレームワークを提案する。 NLPの領域におけるこのフレームワークのパターンを詳述し、コンピュータビジョン(CV)や科学のためのAIなど他の分野に簡単に説明します。
論文参考訳（メタデータ） (2025-05-12T17:36:14Z)
Platonic Grounding for Efficient Multimodal Language Models [22.715168904364756]
我々は、事前訓練されたモデルの整合性に依存する既存のマルチモーダルフレームワークをモチベーションし、簡単な修正を提案する。私たちの研究は、事前学習されたモデルをより大規模なシステムに効率的に組み合わせることにも影響します。
論文参考訳（メタデータ） (2025-04-27T18:56:26Z)
Learning Free Token Reduction for Multi-Modal Large Language Models [3.4026156483879517]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。しかし、それらの実践的な展開は、しばしば高い計算コストと長期の推論時間によって制約される。本稿では,空間次元と時間次元の両方で動作するトークン圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2025-01-29T02:52:32Z)
Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文参考訳（メタデータ） (2024-10-03T10:33:49Z)
Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-17T14:44:25Z)
A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-15T00:03:16Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文参考訳（メタデータ） (2023-06-22T10:53:10Z)
Learning Sequential Latent Variable Models from Multimodal Time Series Data [6.107812768939553]
マルチモーダルデータの確率的潜在状態表現を協調的に学習するための自己教師付き生成モデリングフレームワークを提案する。提案手法が予測品質と表現品質を大幅に向上させることを示す。
論文参考訳（メタデータ） (2022-04-21T21:59:24Z)
Self-attention fusion for audiovisual emotion recognition with incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文参考訳（メタデータ） (2022-01-26T18:04:29Z)
Discriminative Multimodal Learning via Conditional Priors in Generative Models [21.166519800652047]
本研究は,モデルトレーニングにおいて,すべてのモダリティとクラスラベルが利用できる現実的なシナリオについて研究する。このシナリオでは、変動的な下界境界は、結合表現と欠測モダリティの間の相互情報を制限する。
論文参考訳（メタデータ） (2021-10-09T17:22:24Z)
Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文参考訳（メタデータ） (2020-11-03T11:18:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。