論文の概要: AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability
- arxiv url: http://arxiv.org/abs/2405.14129v1
- Date: Thu, 23 May 2024 03:07:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 19:15:00.607583
- Title: AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability
- Title(参考訳): AlignGPT:適応的アライメント能力を持つ多モード大言語モデル
- Authors: Fei Zhao, Taotian Pang, Chunhui Li, Zhen Wu, Junjie Guo, Shangyu Xing, Xinyu Dai,
- Abstract要約: MLLM(Multimodal Large Language Models)は、人工知能(AGI)の探索において重要であると考えられている。
MLLMのコアは、クロスモーダルアライメントを実現する能力にある。
彼らの成功にもかかわらず、これらのモデル内のアライメント機能のモデリングには欠点がある。
- 参考スコア(独自算出の注目度): 26.181345324220743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) are widely regarded as crucial in the exploration of Artificial General Intelligence (AGI). The core of MLLMs lies in their capability to achieve cross-modal alignment. To attain this goal, current MLLMs typically follow a two-phase training paradigm: the pre-training phase and the instruction-tuning phase. Despite their success, there are shortcomings in the modeling of alignment capabilities within these models. Firstly, during the pre-training phase, the model usually assumes that all image-text pairs are uniformly aligned, but in fact the degree of alignment between different image-text pairs is inconsistent. Secondly, the instructions currently used for finetuning incorporate a variety of tasks, different tasks's instructions usually require different levels of alignment capabilities, but previous MLLMs overlook these differentiated alignment needs. To tackle these issues, we propose a new multimodal large language model AlignGPT. In the pre-training stage, instead of treating all image-text pairs equally, we assign different levels of alignment capabilities to different image-text pairs. Then, in the instruction-tuning phase, we adaptively combine these different levels of alignment capabilities to meet the dynamic alignment needs of different instructions. Extensive experimental results show that our model achieves competitive performance on 12 benchmarks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、人工知能(AGI)の探索において重要であると考えられている。
MLLMのコアは、クロスモーダルアライメントを実現する能力にある。
この目標を達成するために、現在のMLLMは通常、事前学習フェーズと命令調整フェーズという2段階の訓練パラダイムに従う。
彼らの成功にもかかわらず、これらのモデル内のアライメント機能のモデリングには欠点がある。
第一に、トレーニング前の段階では、モデルは通常、すべての画像とテキストのペアが一様に整列していると仮定するが、実際には異なる画像とテキストのペア間のアライメントの程度は矛盾する。
第二に、現在ファインタニングに使われている命令には様々なタスクが組み込まれており、異なるタスクの指示は通常異なるレベルのアライメント能力を必要とするが、以前のMLLMはこれらの異なるアライメントのニーズを軽視していた。
これらの問題に対処するため、我々は新しいマルチモーダルな大規模言語モデルAlignGPTを提案する。
事前学習の段階では、すべての画像テキストペアを平等に扱う代わりに、異なる画像テキストペアに異なるレベルのアライメント能力を割り当てる。
そして、命令調整フェーズにおいて、異なる命令の動的アライメント要求を満たすために、これらの異なるアライメント能力のレベルを適応的に組み合わせる。
大規模な実験結果から,12ベンチマークの競合性能が得られた。
関連論文リスト
- Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-08-23T06:48:46Z) - Understanding Alignment in Multimodal LLMs: A Comprehensive Study [46.33812471516309]
マルチモーダル大言語モデル(MLLM)における嗜好アライメントのそれぞれの側面を解析する。
オフライン手法とオンライン手法を組み合わせることで,特定のシナリオにおけるモデルの性能が向上することを示す。
BDHS(Bias-Driven Hallucination Smpling)と呼ばれる,マルチモーダルな嗜好データ作成手法を提案する。
論文 参考訳(メタデータ) (2024-07-02T17:55:03Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - MVP: Multi-Stage Vision-Language Pre-Training via Multi-Level Semantic
Alignment [24.720485548282845]
言語と視覚のための2段階の意味表現を構築するために,両モードの概念を導入する。
我々は、一様学習と多様学習という2つの段階において、相互モダリティモデルを訓練する。
我々のモデルは、いくつかのビジョンと言語タスクに関する最先端の結果を生成する。
論文 参考訳(メタデータ) (2022-01-29T14:30:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。