論文の概要: Open-Source Multimodal Moxin Models with Moxin-VLM and Moxin-VLA
- arxiv url: http://arxiv.org/abs/2512.22208v1
- Date: Mon, 22 Dec 2025 02:36:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.88867
- Title: Open-Source Multimodal Moxin Models with Moxin-VLM and Moxin-VLA
- Title(参考訳): Moxin-VLMとMoxin-VLAを用いたオープンソースマルチモーダルモキシンモデル
- Authors: Pu Zhao, Xuan Shen, Zhenglun Kong, Yixin Shen, Sung-En Chang, Arash Akbari, Timothy Rupprecht, Lei Lu, Enfu Nan, Changdi Yang, Yumei He, Weiyan Shi, Xingchen Xu, Yu Huang, Wei Jiang, Wei Wang, Yue Chen, Yong He, Yanzhi Wang,
- Abstract要約: Moxin 7Bは、完全にオープンソースなLarge Language Models (LLMs)として導入された。
我々は,Moxin-VLM,Moxin-VLA,Moxin- Chineseの3つの変種を開発した。
実験により, 各種評価において, モデルが優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 53.68989489261506
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recently, Large Language Models (LLMs) have undergone a significant transformation, marked by a rapid rise in both their popularity and capabilities. Leading this evolution are proprietary LLMs like GPT-4 and GPT-o1, which have captured widespread attention in the AI community due to their remarkable performance and versatility. Simultaneously, open-source LLMs, such as LLaMA and Mistral, have made great contributions to the ever-increasing popularity of LLMs due to the ease to customize and deploy the models across diverse applications. Moxin 7B is introduced as a fully open-source LLM developed in accordance with the Model Openness Framework, which moves beyond the simple sharing of model weights to embrace complete transparency in training, datasets, and implementation detail, thus fostering a more inclusive and collaborative research environment that can sustain a healthy open-source ecosystem. To further equip Moxin with various capabilities in different tasks, we develop three variants based on Moxin, including Moxin-VLM, Moxin-VLA, and Moxin-Chinese, which target the vision-language, vision-language-action, and Chinese capabilities, respectively. Experiments show that our models achieve superior performance in various evaluations. We adopt open-source framework and open data for the training. We release our models, along with the available data and code to derive these models.
- Abstract(参考訳): 最近、Large Language Models (LLM) は、その人気と能力の急激な上昇により、大きな変革を遂げている。
この進化をリードするのが、GPT-4やGPT-o1のようなプロプライエタリなLLMであり、その顕著なパフォーマンスと汎用性により、AIコミュニティで広く注目を集めている。
同時に、LLaMAやMistralといったオープンソースのLLMは、さまざまなアプリケーションにまたがるモデルのカスタマイズとデプロイが容易なため、LLMの人気が高まっている。
モデルオープンネスフレームワークは、トレーニング、データセット、実装の詳細における完全な透明性を受け入れるために、モデルウェイトをシンプルに共有することを超えて、健全なオープンソースエコシステムを維持するためのより包括的で協調的な研究環境を育む。
そこで本研究では,Moxin-VLM,Moxin-VLA,Moxin- Chineseの3つの変種を開発した。
実験により, 各種評価において, モデルが優れた性能を発揮することが示された。
トレーニングにはオープンソースフレームワークとオープンデータを採用しています。
これらのモデルを導出するための利用可能なデータとコードとともに、当社のモデルをリリースします。
関連論文リスト
- 7B Fully Open Source Moxin-LLM/VLM -- From Pretraining to GRPO-based Reinforcement Learning Enhancement [41.463611054440435]
Moxin 7Bは、オープンサイエンス、オープンソース、オープンデータ、オープンアクセスの原則に準拠した、完全にオープンソースのLarge Language Models (LLM) である。
トレーニング済みのコードと設定、トレーニングと微調整のデータセット、中間および最終チェックポイントをリリースします。
実験により, ゼロショット評価, 少数ショット評価, CoT評価など, 各種評価において, 優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-12-08T02:01:46Z) - xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [145.5926980973847]
BLIP-3は大規模マルチモーダルモデルを開発するためのオープンフレームワークである。
事前訓練されたベースモデルと微調整された命令を含む4Bと14Bのモデルをリリースする。
我々のモデルは、類似のモデルサイズを持つオープンソースのLMM間での競合性能を示す。
論文 参考訳(メタデータ) (2024-08-16T17:57:01Z) - MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文 参考訳(メタデータ) (2024-05-29T17:57:16Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。