論文の概要: Improved Alignment of Modalities in Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2503.19508v1
- Date: Tue, 25 Mar 2025 09:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:51:12.421550
- Title: Improved Alignment of Modalities in Large Vision Language Models
- Title(参考訳): 大規模視覚言語モデルにおけるモーダリティのアライメントの改善
- Authors: Kartik Jangra, Aman Kumar Singh, Yashwani Mann, Geetanjali Rathee,
- Abstract要約: 本稿では,自動回帰視覚言語モデルの学習戦略を提案する。
視覚モデルを言語モデルと整合させるための4つの訓練段階を提案する。
また、トランスフォーマーベースの言語モデルをトレーニングするための異なる注意マスクも考案した。
- 参考スコア(独自算出の注目度): 1.4561960744147884
- License:
- Abstract: Recent advancements in vision-language models have achieved remarkable results in making language models understand vision inputs. However, a unified approach to align these models across diverse tasks such as image captioning and visual question answering remains a challenge. Existing methods either require very big language models or very big datasets which is not efficient in utilizing existing models. This paper addresses this gap and devises a training strategy of auto-regressive vision-language models, to unify vision-language tasks like image-captioning and visual question answering. We propose four training stages for aligning the vision model with the language model, in other words, the language model is given an ability to process visual inputs. We also devise different attention masks for training transformer-based language models that improve the quality of visual features. Further, we introduce some findings, 1) the attention mask should not be applied on visual inputs, 2) the Language model converges faster on AI- generated data, 3) More work should be done in the alignment stage during the pre-training of the model, 4) the model can easily adapt to any downstream tasks like visual question answering on healthcare datasets like PathVQA. After training the model for one epoch for all the stages, it outperforms large models like VILA-13 billion models on common benchmarks like CIDEr scores on COCO and Flickr30k datasets and achieves very close scores to GIT-2 on the same dataset despite being a much smaller model trained on a much smaller dataset. All of the training is done using best practices available like multi- GPU parallel training, lower-precision training with 16-bit float numbers, faster attention (SDPA), and gradient accumulation, and completed the training within 12 hours.
- Abstract(参考訳): 近年の視覚言語モデルの進歩は、言語モデルに視覚入力を理解させることで顕著な成果を上げている。
しかし、イメージキャプションや視覚的質問応答といった様々なタスクにまたがってこれらのモデルを整合させる統一的なアプローチは、依然として課題である。
既存のメソッドは、非常に大きな言語モデルを必要とするか、既存のモデルを利用するのに効率的でない非常に大きなデータセットを必要とする。
本稿では、このギャップに対処し、自動回帰視覚言語モデルのトレーニング戦略を考案し、画像キャプションや視覚質問応答などの視覚言語タスクを統合する。
視覚モデルを言語モデルと整合させるための4つの訓練段階を提案し、言い換えれば、言語モデルには視覚的な入力を処理する能力が与えられる。
また,視覚的特徴の質を向上させるために,トランスフォーマーに基づく言語モデルを訓練するための異なる注意マスクも考案した。
さらに,いくつかの知見を紹介する。
1) 視覚入力には注意マスクを適用すべきでない。
2) 言語モデルはAI生成データにより高速に収束する。
3)モデルの事前トレーニング中にアライメント段階でさらに作業を行う必要がある。
4) このモデルは、PathVQAのような医療データセットに対する視覚的質問応答のようなダウンストリームタスクに容易に適応できます。
すべてのステージにおいてひとつのエポックのモデルをトレーニングした後、COCOやFlickr30kデータセットのCIDErスコアのような一般的なベンチマークでVILA-13億モデルのような大きなモデルよりも優れており、はるかに小さなデータセットでトレーニングされたモデルであるにもかかわらず、同じデータセットでGIT-2に非常に近いスコアを達成している。
トレーニングはすべて、マルチGPU並列トレーニング、16ビットフロート数による低精度トレーニング、高速注意(SDPA)、勾配蓄積などのベストプラクティスを使用して行われ、12時間以内にトレーニングが完了した。
関連論文リスト
- A Chain-of-Thought Subspace Meta-Learning for Few-shot Image Captioning with Large Vision and Language Models [17.144311122664508]
大規模データに事前訓練された大規模ビジョンと言語モデルは、視覚的および言語的先行性を符号化する。
画像記述の仕方を改善するための多段階画像キャプション手法として,チェーン・オブ・シント(CoT)メタラーニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-19T18:35:43Z) - MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding [6.538592344967826]
本稿では,MUSE-VL(Unified Vision-Language Model Semantic)を紹介する。
提案手法は,従来のSOTA Emu3に比べて4.8%向上し,LLaVA-NeXT 34Bを3.7%上回った。
論文 参考訳(メタデータ) (2024-11-26T03:33:52Z) - MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning [65.60607895153692]
MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
論文 参考訳(メタデータ) (2023-10-14T03:22:07Z) - Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2~20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文 参考訳(メタデータ) (2023-05-31T15:02:02Z) - Making the Most of What You Have: Adapting Pre-trained Visual Language
Models in the Low-data Regime [23.255873641249263]
低データ構造におけるタスク適応について検討し、生成型ビジュアル言語モデルに対する既存の適応手法について検討する。
我々は,多数の未ラベル画像にアクセスする際に,モデル自身の予測を用いて自己改善を行うという,自己ラベル化の重要な利点を示す。
論文 参考訳(メタデータ) (2023-05-03T17:42:54Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Effective End-to-End Vision Language Pretraining with Semantic Visual
Loss [58.642954383282216]
現在の視覚言語事前学習モデルは、物体検出器から抽出された領域視覚特徴を用いた手法によって支配されている。
3種類の視覚的損失を導入し、より高速な収束と微調整精度の向上を実現した。
リージョン機能モデルと比較して、私たちのエンドツーエンドモデルは、下流タスクで同様のあるいはより良いパフォーマンスを実現し、推論中に10倍以上高速に動作します。
論文 参考訳(メタデータ) (2023-01-18T00:22:49Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。