論文の概要: AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability
- arxiv url: http://arxiv.org/abs/2405.14129v1
- Date: Thu, 23 May 2024 03:07:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 19:15:00.607583
- Title: AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability
- Title(参考訳): AlignGPT:適応的アライメント能力を持つ多モード大言語モデル
- Authors: Fei Zhao, Taotian Pang, Chunhui Li, Zhen Wu, Junjie Guo, Shangyu Xing, Xinyu Dai,
- Abstract要約: MLLM(Multimodal Large Language Models)は、人工知能(AGI)の探索において重要であると考えられている。
MLLMのコアは、クロスモーダルアライメントを実現する能力にある。
彼らの成功にもかかわらず、これらのモデル内のアライメント機能のモデリングには欠点がある。
- 参考スコア(独自算出の注目度): 26.181345324220743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) are widely regarded as crucial in the exploration of Artificial General Intelligence (AGI). The core of MLLMs lies in their capability to achieve cross-modal alignment. To attain this goal, current MLLMs typically follow a two-phase training paradigm: the pre-training phase and the instruction-tuning phase. Despite their success, there are shortcomings in the modeling of alignment capabilities within these models. Firstly, during the pre-training phase, the model usually assumes that all image-text pairs are uniformly aligned, but in fact the degree of alignment between different image-text pairs is inconsistent. Secondly, the instructions currently used for finetuning incorporate a variety of tasks, different tasks's instructions usually require different levels of alignment capabilities, but previous MLLMs overlook these differentiated alignment needs. To tackle these issues, we propose a new multimodal large language model AlignGPT. In the pre-training stage, instead of treating all image-text pairs equally, we assign different levels of alignment capabilities to different image-text pairs. Then, in the instruction-tuning phase, we adaptively combine these different levels of alignment capabilities to meet the dynamic alignment needs of different instructions. Extensive experimental results show that our model achieves competitive performance on 12 benchmarks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、人工知能(AGI)の探索において重要であると考えられている。
MLLMのコアは、クロスモーダルアライメントを実現する能力にある。
この目標を達成するために、現在のMLLMは通常、事前学習フェーズと命令調整フェーズという2段階の訓練パラダイムに従う。
彼らの成功にもかかわらず、これらのモデル内のアライメント機能のモデリングには欠点がある。
第一に、トレーニング前の段階では、モデルは通常、すべての画像とテキストのペアが一様に整列していると仮定するが、実際には異なる画像とテキストのペア間のアライメントの程度は矛盾する。
第二に、現在ファインタニングに使われている命令には様々なタスクが組み込まれており、異なるタスクの指示は通常異なるレベルのアライメント能力を必要とするが、以前のMLLMはこれらの異なるアライメントのニーズを軽視していた。
これらの問題に対処するため、我々は新しいマルチモーダルな大規模言語モデルAlignGPTを提案する。
事前学習の段階では、すべての画像テキストペアを平等に扱う代わりに、異なる画像テキストペアに異なるレベルのアライメント能力を割り当てる。
そして、命令調整フェーズにおいて、異なる命令の動的アライメント要求を満たすために、これらの異なるアライメント能力のレベルを適応的に組み合わせる。
大規模な実験結果から,12ベンチマークの競合性能が得られた。
関連論文リスト
- Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Modeling Paragraph-Level Vision-Language Semantic Alignment for
Multi-Modal Summarization [23.475411831792716]
We propose ViL-Sum to jointly model of paragraph-level textbfVision-textbfLanguage Semantic Alignment and Multi-Modal textbfSummarization。
ViL-Sumのコアは、よく設計された2つのタスク、画像の並べ替えと画像選択を備えたマルチモーダルエンコーダである。
実験結果から,提案したViL-Sumは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-08-24T05:18:23Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - MVP: Multi-Stage Vision-Language Pre-Training via Multi-Level Semantic
Alignment [24.720485548282845]
言語と視覚のための2段階の意味表現を構築するために,両モードの概念を導入する。
我々は、一様学習と多様学習という2つの段階において、相互モダリティモデルを訓練する。
我々のモデルは、いくつかのビジョンと言語タスクに関する最先端の結果を生成する。
論文 参考訳(メタデータ) (2022-01-29T14:30:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。