論文の概要: TinyLLaVA Factory: A Modularized Codebase for Small-scale Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2405.11788v1
- Date: Mon, 20 May 2024 05:11:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 14:13:43.629408
- Title: TinyLLaVA Factory: A Modularized Codebase for Small-scale Large Multimodal Models
- Title(参考訳): TinyLLaVA Factory: 小型マルチモーダルモデルのためのモジュール化コードベース
- Authors: Junlong Jia, Ying Hu, Xi Weng, Yiming Shi, Miao Li, Xingjian Zhang, Baichuan Zhou, Ziyu Liu, Jie Luo, Lei Huang, Ji Wu,
- Abstract要約: 小型大型モデル(LMM)のためのオープンソースのモジュールであるTinyLLaVA Factoryについて紹介する。
TinyLLaVA Factoryはシステム全体を交換可能なコンポーネントにモジュール化し、各コンポーネントは最先端のモデルとメソッドのスイートを統合する。
TinyLLaVA Factoryは、ユーザが独自のLMMをカスタマイズできるだけでなく、一般的なトレーニングレシピを提供して、コーディング作業の少ないモデルの事前トレーニングと微調整を可能にしている。
- 参考スコア(独自算出の注目度): 22.214259364977256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present TinyLLaVA Factory, an open-source modular codebase for small-scale large multimodal models (LMMs) with a focus on simplicity of code implementations, extensibility of new features, and reproducibility of training results. Following the design philosophy of the factory pattern in software engineering, TinyLLaVA Factory modularizes the entire system into interchangeable components, with each component integrating a suite of cutting-edge models and methods, meanwhile leaving room for extensions to more features. In addition to allowing users to customize their own LMMs, TinyLLaVA Factory provides popular training recipes to let users pretrain and finetune their models with less coding effort. Empirical experiments validate the effectiveness of our codebase. The goal of TinyLLaVA Factory is to assist researchers and practitioners in exploring the wide landscape of designing and training small-scale LMMs with affordable computational resources.
- Abstract(参考訳): 小型の大規模マルチモーダルモデル(LMM)のためのオープンソースのモジュラーコードベースであるTinyLLaVA Factoryを紹介し,コード実装の単純さ,新機能の拡張性,トレーニング結果の再現性などに注目した。
ソフトウェアエンジニアリングにおけるファクトリパターンの設計哲学に従い、TinyLLaVA Factoryはシステム全体を交換可能なコンポーネントにモジュール化し、各コンポーネントは最先端のモデルとメソッドのスイートを統合する一方で、より多くの機能の拡張の余地を残している。
TinyLLaVA Factoryは、ユーザが独自のLMMをカスタマイズできるだけでなく、一般的なトレーニングレシピを提供して、コーディング作業の少ないモデルの事前トレーニングと微調整を可能にしている。
経験的な実験はコードベースの有効性を検証する。
TinyLLaVA Factoryの目標は、研究者や実践者が安価な計算資源で小規模なLMMを設計し、訓練するという広い視野を探索するのを支援することである。
関連論文リスト
- xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.44696790158784]
本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。
このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。
私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
論文 参考訳(メタデータ) (2024-08-16T17:57:01Z) - Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation [59.37775534633868]
同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。
また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
論文 参考訳(メタデータ) (2024-03-27T17:50:00Z) - TinyLLaVA: A Framework of Small-scale Large Multimodal Models [11.686023770810937]
本研究では,異なる視覚エンコーダ,接続モジュール,言語モデル,トレーニングデータ,トレーニングレシピの効果について検討する。
我々は,LLaVA-1.5 や Qwen-VL といった既存の 7B モデルに対して,我々の最良のモデル TinyLLaVA-3.1B を訓練する。
論文 参考訳(メタデータ) (2024-02-22T05:05:30Z) - ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models [51.35570730554632]
ESPnet-SPKは、話者埋め込み抽出器を訓練するためのツールキットである。
我々は、x-vectorから最近のSKA-TDNNまで、いくつかのモデルを提供している。
開発モデルと他のドメインとの橋渡しも目指しています。
論文 参考訳(メタデータ) (2024-01-30T18:18:27Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - Model LEGO: Creating Models Like Disassembling and Assembling Building Blocks [53.09649785009528]
本稿では,新しいモデルを得るためのトレーニングを必要としないパラダイムについて検討する。
生体視覚系における受容野にインスパイアされたCNNの誕生と同様、モデル分解と組み立てを提案する。
モデル組立には、特定のタスクに適した新しいモデルを構築するために、アライメントパディング戦略とパラメータスケーリング戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T05:27:28Z) - Ensemble Distillation for Robust Model Fusion in Federated Learning [72.61259487233214]
Federated Learning(FL)は、多くのデバイスが機械学習モデルを協調的にトレーニングする機械学習環境である。
現在のトレーニングスキームのほとんどでは、サーバモデルのパラメータと更新されたパラメータをクライアント側から平均化することで、中央モデルを洗練します。
本研究では,モデル融合のためのアンサンブル蒸留法を提案する。
論文 参考訳(メタデータ) (2020-06-12T14:49:47Z) - The Collective Knowledge project: making ML models more portable and
reproducible with open APIs, reusable best practices and MLOps [0.2538209532048866]
本稿では、集合知識技術(CKまたはcKnowledge CK)の概要を紹介する。
CKはMLとシステムの研究を再現しやすくし、実運用環境にMLモデルをデプロイし、データセット、モデル、研究技術、ソフトウェア、ハードウェアの変更に適応させようとしている。
論文 参考訳(メタデータ) (2020-06-12T13:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。