論文の概要: Aria: An Open Multimodal Native Mixture-of-Experts Model
- arxiv url: http://arxiv.org/abs/2410.05993v1
- Date: Fri, 11 Oct 2024 02:33:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 11:50:19.096388
- Title: Aria: An Open Multimodal Native Mixture-of-Experts Model
- Title(参考訳): Aria: オープンなマルチモーダルなNative Mixture-of-Expertsモデル
- Authors: Dongxu Li, Yudong Liu, Haoning Wu, Yue Wang, Zhiqi Shen, Bowen Qu, Xinyao Niu, Guoyin Wang, Bei Chen, Junnan Li,
- Abstract要約: Ariaはオープンなマルチモーダルネイティブモデルであり、様々なマルチモーダル、言語、コーディングタスクで最高のパフォーマンスを発揮する。
Pixtral-12BとLlama3.2-11Bを上回り、様々なマルチモーダルタスクにおける最高のプロプライエタリモデルと競合する。
私たちは、Ariaの実際のアプリケーションへの導入と適応を容易にするパイプラインとともに、モデルの重みをオープンソースにしています。
- 参考スコア(独自算出の注目度): 42.39693814085192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information comes in diverse modalities. Multimodal native AI models are essential to integrate real-world information and deliver comprehensive understanding. While proprietary multimodal native models exist, their lack of openness imposes obstacles for adoptions, let alone adaptations. To fill this gap, we introduce Aria, an open multimodal native model with best-in-class performance across a wide range of multimodal, language, and coding tasks. Aria is a mixture-of-expert model with 3.9B and 3.5B activated parameters per visual token and text token, respectively. It outperforms Pixtral-12B and Llama3.2-11B, and is competitive against the best proprietary models on various multimodal tasks. We pre-train Aria from scratch following a 4-stage pipeline, which progressively equips the model with strong capabilities in language understanding, multimodal understanding, long context window, and instruction following. We open-source the model weights along with a codebase that facilitates easy adoptions and adaptations of Aria in real-world applications.
- Abstract(参考訳): 情報は多様である。
マルチモーダルネイティブAIモデルは、現実世界の情報を統合し、包括的な理解を提供するために不可欠である。
プロプライエタリなマルチモーダルネイティブモデルが存在するが、オープン性の欠如は、適応だけでなく、採用の障害となる。
このギャップを埋めるために、オープンなマルチモーダルネイティブモデルであるAriaを紹介します。
Ariaは3.9Bと3.5Bのアクティベートパラメータをそれぞれ視覚トークンとテキストトークンに混合したエキスパートモデルである。
Pixtral-12BとLlama3.2-11Bを上回り、様々なマルチモーダルタスクにおける最高のプロプライエタリモデルと競合する。
言語理解,マルチモーダル理解,長いコンテキストウィンドウ,命令フォローなどにおいて,Ariaを4段階のパイプラインに従ってゼロからトレーニングする。
私たちは、Ariaの実際のアプリケーションへの導入と適応を容易にするコードベースとともに、モデルの重みをオープンソースにしています。
関連論文リスト
- Towards Multi-Modal Mastery: A 4.5B Parameter Truly Multi-Modal Small Language Model [0.0]
本稿では,複数入力と出力のモダリティを扱える新しい4.5Bパラメータ小言語モデルを提案する。
モデルのサイズは小さいが、様々なタスクにおける最先端のパフォーマンスをほぼ達成している。
論文 参考訳(メタデータ) (2024-11-08T17:15:17Z) - ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation [27.773146599559286]
Anoleは、インターリーブ画像テキスト生成のための、オープンで自己回帰的で、ネイティブな大規模マルチモーダルモデルである。
当社は、モデル、トレーニングフレームワーク、チューニングデータなどをオープンソース化しました。
論文 参考訳(メタデータ) (2024-07-08T17:08:02Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent [10.998608318944985]
マルチモーダルAIエージェントは、さまざまなタイプのデータから処理および学習する能力によって特徴付けられる。
本稿では,AIエージェントアプリケーション用に設計された関数トークンの概念を取り入れたマルチモーダルモデルを提案する。
我々はこのモデルがRaspberry Piのように制約のある幅広いエッジデバイス上で効率的に動作可能であることを実証した。
論文 参考訳(メタデータ) (2024-04-17T15:07:06Z) - VL-Mamba: Exploring State Space Models for Multimodal Learning [22.701028299912398]
本研究では,状態空間モデルに基づく多モーダル大規模言語モデルであるVL-Mambaを提案する。
具体的には、まず、LLamaやVicunaのようなトランスフォーマーベースのバックボーン言語モデルを、事前訓練されたMamba言語モデルに置き換える。
論文 参考訳(メタデータ) (2024-03-20T13:48:50Z) - AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。