論文の概要: Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs
- arxiv url: http://arxiv.org/abs/2503.01743v1
- Date: Mon, 03 Mar 2025 17:05:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:26:33.736263
- Title: Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs
- Title(参考訳): Phi-4-Miniテクニカルレポート:LoRAの混合によるコンパクトかつパワフルなマルチモーダル言語モデル
- Authors: Abdelrahman Abouelenin, Atabak Ashfaq, Adam Atkinson, Hany Awadalla, Nguyen Bach, Jianmin Bao, Alon Benhaim, Martin Cai, Vishrav Chaudhary, Congcong Chen, Dong Chen, Dongdong Chen, Junkun Chen, Weizhu Chen, Yen-Chun Chen, Yi-ling Chen, Qi Dai, Xiyang Dai, Ruchao Fan, Mei Gao, Min Gao, Amit Garg, Abhishek Goswami, Junheng Hao, Amr Hendy, Yuxuan Hu, Xin Jin, Mahmoud Khademi, Dongwoo Kim, Young Jin Kim, Gina Lee, Jinyu Li, Yunsheng Li, Chen Liang, Xihui Lin, Zeqi Lin, Mengchen Liu, Yang Liu, Gilsinia Lopez, Chong Luo, Piyush Madan, Vadim Mazalov, Ali Mousavi, Anh Nguyen, Jing Pan, Daniel Perez-Becker, Jacob Platin, Thomas Portet, Kai Qiu, Bo Ren, Liliang Ren, Sambuddha Roy, Ning Shang, Yelong Shen, Saksham Singhal, Subhojit Som, Xia Song, Tetyana Sych, Praneetha Vaddamanu, Shuohang Wang, Yiming Wang, Zhenghao Wang, Haibin Wu, Haoran Xu, Weijian Xu, Yifan Yang, Ziyi Yang, Donghan Yu, Ishmam Zabir, Jianwen Zhang, Li Lyna Zhang, Yunan Zhang, Xiren Zhou,
- Abstract要約: 我々はPhi-4-MiniとPhi-4-Multimodalを導入し、コンパクトだが高機能な言語とマルチモーダルモデルを提案する。
Phi-4-Miniは、高品質なウェブおよび合成データに基づいて訓練された3.8ビリオンパラメータ言語モデルである。
Phi-4-Multimodalは、テキスト、ビジョン、音声、音声の入力モーダルを単一のモデルに統合するマルチモーダルモデルである。
- 参考スコア(独自算出の注目度): 194.4278692914562
- License:
- Abstract: We introduce Phi-4-Mini and Phi-4-Multimodal, compact yet highly capable language and multimodal models. Phi-4-Mini is a 3.8-billion-parameter language model trained on high-quality web and synthetic data, significantly outperforming recent open-source models of similar size and matching the performance of models twice its size on math and coding tasks requiring complex reasoning. This achievement is driven by a carefully curated synthetic data recipe emphasizing high-quality math and coding datasets. Compared to its predecessor, Phi-3.5-Mini, Phi-4-Mini features an expanded vocabulary size of 200K tokens to better support multilingual applications, as well as group query attention for more efficient long-sequence generation. Phi-4-Multimodal is a multimodal model that integrates text, vision, and speech/audio input modalities into a single model. Its novel modality extension approach leverages LoRA adapters and modality-specific routers to allow multiple inference modes combining various modalities without interference. For example, it now ranks first in the OpenASR leaderboard to date, although the LoRA component of the speech/audio modality has just 460 million parameters. Phi-4-Multimodal supports scenarios involving (vision + language), (vision + speech), and (speech/audio) inputs, outperforming larger vision-language and speech-language models on a wide range of tasks. Additionally, we experiment to further train Phi-4-Mini to enhance its reasoning capabilities. Despite its compact 3.8-billion-parameter size, this experimental version achieves reasoning performance on par with or surpassing significantly larger models, including DeepSeek-R1-Distill-Qwen-7B and DeepSeek-R1-Distill-Llama-8B.
- Abstract(参考訳): 我々はPhi-4-MiniとPhi-4-Multimodalを導入し、コンパクトだが高機能な言語とマルチモーダルモデルを提案する。
Phi-4-Miniは、高品質なWebおよび合成データに基づいて訓練された3.8ビリオンのパラメトリック言語モデルであり、最近のオープンソースモデルよりも大幅に優れており、数学や複雑な推論を必要とするコーディングタスクにおいて、モデルのサイズが2倍になる。
この成果は、高品質な数学とコーディングデータセットを強調した、慎重にキュレートされた合成データレシピによって引き起こされる。
前のPhi-3.5-Miniと比較して、Phi-4-Miniは多言語アプリケーションをサポートし、より効率的なロングシーケンス生成のためのグループクエリアテンションをサポートするために200Kトークンの語彙サイズが拡張されている。
Phi-4-Multimodalは、テキスト、ビジョン、音声、音声の入力モーダルを単一のモデルに統合するマルチモーダルモデルである。
その新しいモダリティ拡張アプローチは、LoRAアダプタとモダリティ固有のルータを利用して、様々なモダリティを干渉せずに組み合わせる多重推論モードを可能にする。
例えば、今日までOpenASRのリーダーボードにランクインしているが、音声/オーディオのLoRAコンポーネントは4億6000万のパラメータしか持たない。
Phi-4-Multimodal は (vision + language)、 (vision + speech)、 (speech/audio) 入力を含むシナリオをサポートし、幅広いタスクにおいてより大きな視覚言語および音声モデルより優れている。
さらに,Phi-4-Miniの推論能力を高めるために,Phi-4-Miniをさらに訓練する実験を行った。
コンパクトな3.8ビリオンパラメーターにもかかわらず、この実験バージョンはDeepSeek-R1-Distill-Qwen-7BやDeepSeek-R1-Distill-Llama-8Bなど、かなり大型のモデルと同等以上の推理性能を達成している。
関連論文リスト
- Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition [57.131546757903834]
Lyraはマルチモーダル能力を向上する効率的なMLLMであり、高度な長音声理解、音声理解、相互モダリティ効率、シームレスな音声対話などが含まれる。
Lyraは様々な視覚言語、視覚音声、音声言語のベンチマークで最先端のパフォーマンスを達成し、計算資源が少なく、訓練データも少ない。
論文 参考訳(メタデータ) (2024-12-12T17:50:39Z) - Towards Multi-Modal Mastery: A 4.5B Parameter Truly Multi-Modal Small Language Model [0.0]
本稿では,複数入力と出力のモダリティを扱える新しい4.5Bパラメータ小言語モデルを提案する。
モデルのサイズは小さいが、様々なタスクにおける最先端のパフォーマンスをほぼ達成している。
論文 参考訳(メタデータ) (2024-11-08T17:15:17Z) - Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities [0.0]
Mini-Omni2はヴィソインとオーディオクエリにリアルタイム、エンドツーエンドの音声応答を提供するビジュアルオーディオアシスタントである。
限られたデータセットでトレーニングした後、言語モデルでマルチモーダル入力と出力を処理できる3段階のトレーニングプロセスを提案する。
論文 参考訳(メタデータ) (2024-10-15T02:10:45Z) - Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone [289.9290405258526]
我々は3.3兆のトークンでトレーニングされた38億のパラメータ言語モデルであるphi-3-miniを紹介する。
MMLUでは69%、MTベンチでは8.38である。
本稿では, phi-3.5-mini, phi-3.5-MoE, phi-3.5-Visionの3モデルを紹介する。
論文 参考訳(メタデータ) (2024-04-22T14:32:33Z) - Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent [10.998608318944985]
マルチモーダルAIエージェントは、さまざまなタイプのデータから処理および学習する能力によって特徴付けられる。
本稿では,AIエージェントアプリケーション用に設計された関数トークンの概念を取り入れたマルチモーダルモデルを提案する。
我々はこのモデルがRaspberry Piのように制約のある幅広いエッジデバイス上で効率的に動作可能であることを実証した。
論文 参考訳(メタデータ) (2024-04-17T15:07:06Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Sharing Low Rank Conformer Weights for Tiny Always-On Ambient Speech
Recognition Models [47.99478573698432]
コンフォーマーに基づく音声認識モデルのモデルサイズを削減する手法を検討する。
このようなモデルにより、低メモリのニューラルプロセッサを持つエッジデバイス上で、常時オンの環境音声認識を実現することができる。
論文 参考訳(メタデータ) (2023-03-15T03:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。