Fugu-MT 論文翻訳(概要): From Unimodal to Multimodal: Scaling up Projectors to Align Modalities

論文の概要: From Unimodal to Multimodal: Scaling up Projectors to Align Modalities

arxiv url: http://arxiv.org/abs/2409.19425v1
Date: Sat, 28 Sep 2024 17:57:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 23:29:10.240577
Title: From Unimodal to Multimodal: Scaling up Projectors to Align Modalities
Title（参考訳）: ユニモーダルからマルチモーダルへ:プロジェクタのスケールアップからアライメントモーダリティへ
Authors: Mayug Maniparambil, Raiymbek Akshulakov, Yasser Abdelaziz Dahou Djilali, Sanath Narayan, Ankit Singh, Noel E. O'Connor,
Abstract要約: そこで本研究では,事前学習した凍結アンモダルエンコーダ上の投影層のみを用いて,視覚と言語モダリティを整合させる手法を提案する。本手法は,よく訓練された視覚の埋め込み空間と言語モデルとのセマンティックな類似性を利用した。これには、潜在空間における意味的に類似したエンコーダの選択、イメージキャプチャペアの概念豊富なデータセットのキュレーション、シンプルなプロジェクタのトレーニングが含まれる。
参考スコア（独自算出の注目度）: 16.733970553781887
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent contrastive multimodal vision-language models like CLIP have demonstrated robust open-world semantic understanding, becoming the standard image backbones for vision-language applications due to their aligned latent space. However, this practice has left powerful unimodal encoders for both vision and language underutilized in multimodal applications which raises a key question: Is there a plausible way to connect unimodal backbones for zero-shot vision-language tasks? To this end, we propose a novel approach that aligns vision and language modalities using only projection layers on pretrained, frozen unimodal encoders. Our method exploits the high semantic similarity between embedding spaces of well-trained vision and language models. It involves selecting semantically similar encoders in the latent space, curating a concept-rich dataset of image-caption pairs, and training simple MLP projectors. We evaluated our approach on 12 zero-shot classification datasets and 2 image-text retrieval datasets. Our best model, utilizing DINOv2 and All-Roberta-Large text encoder, achieves 76\(\%\) accuracy on ImageNet with a 20-fold reduction in data and 65 fold reduction in compute requirements. The proposed framework enhances the accessibility of model development while enabling flexible adaptation across diverse scenarios, offering an efficient approach to building multimodal models by utilizing existing unimodal architectures. Code and datasets will be released soon.
Abstract（参考訳）: CLIPのような最近の対照的なマルチモーダル視覚言語モデルは、オープンワールドのセマンティックな理解を堅牢に示しており、それらの整列した潜在空間のために、視覚言語アプリケーションのための標準画像バックボーンとなっている。しかし、このプラクティスは、マルチモーダルアプリケーションで未使用の視覚と言語の両方に強力なユニモーダルエンコーダを残しており、重要な疑問を提起している。そこで本研究では,事前学習した凍結した単調エンコーダ上の投影層のみを用いて,視覚と言語モダリティを整合させる手法を提案する。本手法は,よく訓練された視覚の埋め込み空間と言語モデルとのセマンティックな類似性を利用した。これには、潜在空間における意味論的に類似したエンコーダの選択、イメージキャプチャペアの概念豊富なデータセットのキュレーション、シンプルなMLPプロジェクタのトレーニングが含まれる。我々は12のゼロショット分類データセットと2つの画像テキスト検索データセットに対するアプローチを評価した。 DINOv2とAll-Roberta-Largeのテキストエンコーダを用いた最良のモデルでは,データ20倍,計算要求65倍の精度で,ImageNet上で76\(\%\)の精度を実現している。提案したフレームワークは,モデル開発のアクセシビリティを高めつつ,多様なシナリオにまたがる柔軟な適応を実現し,既存のユニモーダルアーキテクチャを利用してマルチモーダルモデルを構築するための効率的なアプローチを提供する。コードとデータセットは近くリリースされる。

関連論文リスト

FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens [56.752362642658504]
マルチモーダル埋め込みの代替アーキテクチャであるFuseLIPを提案する。本稿では,テキストと画像トークンの拡張語彙で動作する単一のトランスフォーマーモデルを提案する。本稿では,VQAやテキスト誘導画像変換検索などのマルチモーダル埋め込みタスクにおいて,FuseLIPが他の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-03T17:27:12Z)
TinyAlign: Boosting Lightweight Vision-Language Models by Mitigating Modal Alignment Bottlenecks [15.308801774590597]
ビジョンと言語モデルを調整するための一般的なアプローチは、小さなコネクタモジュールをトレーニングしながら、ビジョンエンコーダと言語モデルの両方を凍結させることである。本研究では,このアライメントのボトルネックを相互情報のレンズを通して検討する。本稿では、メモリバンクから関連するコンテキストを戦略的に取得し、マルチモーダル入力を豊かにし、アライメントを向上する、Retrieval-Augmented Generationにインスパイアされた新しいフレームワークTinyAlignを提案する。
論文参考訳（メタデータ） (2025-05-19T09:11:54Z)
ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文参考訳（メタデータ） (2024-10-23T11:31:06Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
OneEncoder: A Lightweight Framework for Progressive Alignment of Modalities [0.08192907805418585]
クロスモーダルアライメント学習は、テキスト、画像、オーディオ、ビデオなどのさまざまなモダリティからの情報を統合して、統一されたモデルを作成する。現在のテクニックは、大規模なモダリティ固有のエンコーダに依存しており、広範囲に整列したデータセット上で、スクラッチから微調整やトレーニングを必要とする。 OneEncoderは4つのモダリティを徐々に表現し調整する軽量フレームワークである。
論文参考訳（メタデータ） (2024-09-17T10:38:46Z)
IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities [4.269326314400742]
マルチモーダル大言語モデル(MLLM)のための内適応アーキテクチャを導入する。このアーキテクチャは、大きな言語モデル内の様々な深さで複数のマルチモーダルアダプタを組み込んで、テキスト指向のトランスフォーマー層との直接の相互作用を容易にする。大規模な整列データを必要とする従来のフリーズ言語モデルとは異なり、提案アーキテクチャは小規模データセットにおいて優れた性能を実現することができる。
論文参考訳（メタデータ） (2024-08-23T08:10:13Z)
Reformulating Vision-Language Foundation Models and Datasets Towards Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。 UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文参考訳（メタデータ） (2023-10-01T12:35:18Z)
DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention [55.2825684201129]
DeepSpeed-VisualChatは、マルチモーダル機能を組み込むことで、LLM(Large Language Models)を最適化するように設計されている。筆者らのフレームワークは,(1)マルチラウンド・マルチイメージ対話のオープンソースサポート,(2)革新的なマルチモーダル因果注意機構の導入,(3)既存のデータセットにデータブレンディング技術を活用してシームレスな対話を実現すること,などが特徴である。
論文参考訳（メタデータ） (2023-09-25T17:53:29Z)
ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities [71.15303690248021]
ONE-PEACEは、4Bパラメータを持つ高モデルで、視覚、オーディオ、言語モダリティ間の表現をシームレスに整列し統合することができる。 ONE-PEACEのアーキテクチャは、モダリティアダプタ、共有自己アテンション層、およびモダリティFFNからなる。スケーラビリティに優しいアーキテクチャと事前トレーニングタスクにより、ONE-PEACEは無制限のモダリティに拡張する可能性がある。
論文参考訳（メタデータ） (2023-05-18T17:59:06Z)
MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language Representation Learning [23.45678557013005]
そこで本研究では,細粒度マルチモーダル表現を学習するためのマスク付きマルチモーダルモデリング手法を提案する。本手法は,画像テキスト入力において共同マスキングを行い,暗黙的および明示的の両方のターゲットを結合してマスク信号の復元を行う。本モデルは,画像テキスト検索,視覚的質問応答,視覚的推論,弱教師付き視覚的グラウンドティングなど,さまざまな下流視覚言語タスクにおける最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-10-09T06:31:15Z)
BridgeTower: Building Bridges Between Encoders in Vision-Language Representation Learning [91.93547262073213]
近年,2towerアーキテクチャを用いた視覚言語モデル(VL)が視覚表現学習を支配している。そこで,BridgeTowerを提案する。このBridgeTowerは,ユニモーダルエンコーダの上位層とクロスモーダルエンコーダの各層との間の接続を構築する複数のブリッジ層を提供する。 BridgeTowerは78.73%の精度を達成し、以前の最先端モデルであるMETERを1.09%上回った。
論文参考訳（メタデータ） (2022-06-17T09:42:35Z)
Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文参考訳（メタデータ） (2022-05-25T10:12:17Z)
Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文参考訳（メタデータ） (2022-03-27T21:16:10Z)
Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。 PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文参考訳（メタデータ） (2022-03-12T09:33:37Z)
VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts [46.55920956687346]
本稿では、デュアルエンコーダとモジュールトランスフォーマーネットワークを用いた融合エンコーダを共同で学習する統合ビジョンランゲージ事前学習モデル(VLMo)を提案する。 MoMEのモデリングの柔軟性のため、事前訓練されたVLMoは、視覚言語分類タスクのための融合エンコーダとして微調整できる。本稿では,画像とテキストのペアに加えて,大規模画像のみとテキストのみのデータを効果的に活用する,段階的な事前学習戦略を提案する。
論文参考訳（メタデータ） (2021-11-03T17:20:36Z)
A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文参考訳（メタデータ） (2020-07-17T04:06:09Z)
Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文参考訳（メタデータ） (2019-02-18T16:15:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。