Fugu-MT 論文翻訳(概要): Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

論文の概要: Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

arxiv url: http://arxiv.org/abs/2404.14219v3
Date: Thu, 23 May 2024 22:42:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-27 20:27:27.294692
Title: Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
Title（参考訳）: Phi-3テクニカルレポート:スマートフォンでローカルに高機能な言語モデル
Authors: Marah Abdin, Sam Ade Jacobs, Ammar Ahmad Awan, Jyoti Aneja, Ahmed Awadallah, Hany Awadalla, Nguyen Bach, Amit Bahree, Arash Bakhtiari, Jianmin Bao, Harkirat Behl, Alon Benhaim, Misha Bilenko, Johan Bjorck, Sébastien Bubeck, Qin Cai, Martin Cai, Caio César Teodoro Mendes, Weizhu Chen, Vishrav Chaudhary, Dong Chen, Dongdong Chen, Yen-Chun Chen, Yi-Ling Chen, Parul Chopra, Xiyang Dai, Allie Del Giorno, Gustavo de Rosa, Matthew Dixon, Ronen Eldan, Victor Fragoso, Dan Iter, Mei Gao, Min Gao, Jianfeng Gao, Amit Garg, Abhishek Goswami, Suriya Gunasekar, Emman Haider, Junheng Hao, Russell J. Hewett, Jamie Huynh, Mojan Javaheripi, Xin Jin, Piero Kauffmann, Nikos Karampatziakis, Dongwoo Kim, Mahoud Khademi, Lev Kurilenko, James R. Lee, Yin Tat Lee, Yuanzhi Li, Yunsheng Li, Chen Liang, Lars Liden, Ce Liu, Mengchen Liu, Weishung Liu, Eric Lin, Zeqi Lin, Chong Luo, Piyush Madan, Matt Mazzola, Arindam Mitra, Hardik Modi, Anh Nguyen, Brandon Norick, Barun Patra, Daniel Perez-Becker, Thomas Portet, Reid Pryzant, Heyang Qin, Marko Radmilac, Corby Rosset, Sambudha Roy, Olatunji Ruwase, Olli Saarikivi, Amin Saied, Adil Salim, Michael Santacroce, Shital Shah, Ning Shang, Hiteshi Sharma, Swadheen Shukla, Xia Song, Masahiro Tanaka, Andrea Tupini, Xin Wang, Lijuan Wang, Chunyu Wang, Yu Wang, Rachel Ward, Guanhua Wang, Philipp Witte, Haiping Wu, Michael Wyatt, Bin Xiao, Can Xu, Jiahang Xu, Weijian Xu, Sonali Yadav, Fan Yang, Jianwei Yang, Ziyi Yang, Yifan Yang, Donghan Yu, Lu Yuan, Chengruidong Zhang, Cyril Zhang, Jianwen Zhang, Li Lyna Zhang, Yi Zhang, Yue Zhang, Yunan Zhang, Xiren Zhou,
Abstract要約: 我々は3.3兆のトークンでトレーニングされた38億のパラメータ言語モデルであるphi-3-miniを紹介する。 MMLUでは69%、MTベンチでは8.38である。また、画像とテキストのプロンプトに強い推論能力を持つphi-3-miniに基づく420億のパラメータモデルであるphi-3-visionを導入する。
参考スコア（独自算出の注目度）: 264.1381972279132
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce phi-3-mini, a 3.8 billion parameter language model trained on 3.3 trillion tokens, whose overall performance, as measured by both academic benchmarks and internal testing, rivals that of models such as Mixtral 8x7B and GPT-3.5 (e.g., phi-3-mini achieves 69% on MMLU and 8.38 on MT-bench), despite being small enough to be deployed on a phone. The innovation lies entirely in our dataset for training, a scaled-up version of the one used for phi-2, composed of heavily filtered publicly available web data and synthetic data. The model is also further aligned for robustness, safety, and chat format. We also provide some initial parameter-scaling results with a 7B and 14B models trained for 4.8T tokens, called phi-3-small and phi-3-medium, both significantly more capable than phi-3-mini (e.g., respectively 75% and 78% on MMLU, and 8.7 and 8.9 on MT-bench). Moreover, we also introduce phi-3-vision, a 4.2 billion parameter model based on phi-3-mini with strong reasoning capabilities for image and text prompts.
Abstract（参考訳）: 我々は、3.3兆のトークンでトレーニングされた3.8億のパラメータ言語モデルであるphi-3-miniを紹介し、その全体的な性能は、電話に展開できるほど小さいにもかかわらず、Mixtral 8x7BやGPT-3.5(例えば、phi-3-miniはMMLUで69%、MT-benchで8.38)のようなモデルに匹敵する。このイノベーションは、私たちのトレーニング用データセットに完全に含まれています。phi-2で使用されているもので、非常にフィルタされたWebデータと合成データで構成されています。モデルはさらに堅牢性、安全性、チャットフォーマットに整合している。また,4.8Tトークンに対して訓練された7Bおよび14Bモデルであるphi-3-smallおよびphi-3-mediumを,それぞれMMLUで75%,78%,MT-benchで8.7,8.9)よりも有意に高いパラメータスケーリング結果を示した。さらに、画像とテキストのプロンプトに強い推論能力を持つphi-3-miniに基づく420億のパラメータモデルであるphi-3-visionを導入する。

関連論文リスト

SlimMoE: Structured Compression of Large MoE Models via Expert Slimming and Distillation [82.53411922988039]
SlimMoEは、大規模なMoEモデルをより小さく効率的な変種に変換するための多段階圧縮フレームワークである。このフレームワークを用いて、Phi 3.5-MoE (41.9Bトータル/6.6Bアクティベートパラメータ)を圧縮し、Phi-mini-MoE (7.6Bトータル/2.4Bアクティベートパラメータ)とPhi-tiny-MoE (3.8Bトータル/1.1Bアクティベートパラメータ)を生成する。実験により、圧縮されたモデルが他のモデルと同等の大きさのモデルよりも優れ、より大きなモデルと競合し続けていることが示された。
論文参考訳（メタデータ） (2025-06-23T07:15:59Z)
Multilingual Hate Speech Detection in Social Media Using Translation-Based Approaches with Large Language Models [4.66584517664999]
キーワードフィルタリングにより収集した英語,ウルドゥー語,スペイン語で10,193ツイートのトリリンガルデータセットを導入する。 GPT-3.5 Turbo と Qwen 2.5 72B をアテンション層に統合することで,高い性能を実現する。我々のフレームワークは、多言語ヘイトスピーチ検出のための堅牢なソリューションを提供し、世界中のより安全なデジタルコミュニティを育む。
論文参考訳（メタデータ） (2025-06-09T18:53:56Z)
Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文参考訳（メタデータ） (2025-05-07T15:46:36Z)
Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math [135.1260782461186]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の形式推論能力を著しく向上させるしかし、Small Language Models (SLM) における推論の改善は、モデル能力が限られているため、依然として困難である。本研究では,(1)多種多様な蒸留長CoTデータによる大規模中等教育,(2)高品質長CoTデータによる微調整,(3)厳格な選好データセットを活用したロールアウトDPO,(4)検証リワードを用いた強化学習(RL)の4段階からなるSLMの体系的トレーニングレシピを提案する。
論文参考訳（メタデータ） (2025-04-30T00:04:35Z)
Empowering Smaller Models: Tuning LLaMA and Gemma with Chain-of-Thought for Ukrainian Exam Tasks [0.0]
小型またはコンパクトなモデルの方が効率的だが、表現不足の言語を十分にサポートしていないことが多い。この研究は、推論集約的なタスクを扱うために、コンパクトなオープンウェイト言語モデルのパラメータ効率の良い微調整の可能性を探る。統合タスクトピックとステップバイステップのソリューション生成によるチューニング手法は、マッチングタスクにおける標準チェーン・オブ・シンキングよりも優れる。
論文参考訳（メタデータ） (2025-03-18T07:44:49Z)
Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs [195.24565517943802]
我々はPhi-4-MiniとPhi-4-Multimodalを導入し、コンパクトだが高機能な言語とマルチモーダルモデルを提案する。 Phi-4-Miniは、高品質なウェブおよび合成データに基づいて訓練された3.8ビリオンパラメータ言語モデルである。 Phi-4-Multimodalは、テキスト、ビジョン、音声、音声の入力モーダルを単一のモデルに統合するマルチモーダルモデルである。
論文参考訳（メタデータ） (2025-03-03T17:05:52Z)
Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models [111.97026994761254]
Mixture-of-Transformer (MoT) はスパースマルチモーダルトランスアーキテクチャである。 MoTはモデルの非埋め込みパラメータをモダリティで分離する。複数の設定とモデルスケールでMoTを評価する。
論文参考訳（メタデータ） (2024-11-07T18:59:06Z)
Vision-Language and Large Language Model Performance in Gastroenterology: GPT, Claude, Llama, Phi, Mistral, Gemma, and Quantized Models [0.06555599394344236]
本研究では,大言語モデル (LLMs) と視覚言語モデル (VLMs) の胃腸科学における医学的推論性能を評価する。我々は,300の胃腸科検査式多票質問紙を使用し,そのうち138は画像を含んでいた。
論文参考訳（メタデータ） (2024-08-25T14:50:47Z)
Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2～4ドル削減することができる。本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文参考訳（メタデータ） (2024-04-08T14:39:49Z)
TinyGSM: achieving >80% on GSM8k with small language models [49.21136294791747]
小型モデルは様々な計算上の利点を提供するが、どの程度の大きさが問題解決能力にとって重要なのかは未解決のままである。特に小学校の数学を解くために、GSM8Kベンチマークの80%の障壁を破るために必要なモデルサイズは、まだ34Bである。我々の研究は、数学的な推論を得るための小さな言語モデルにとって、高品質なデータセットがどのように鍵となるかを研究する。
論文参考訳（メタデータ） (2023-12-14T18:58:28Z)
Textbooks Are All You Need [66.17192488876695]
phi-1はトランスフォーマーベースのモデルで、1.3Bパラメータを持ち、8A100で4日間訓練された。 phi-1はHumanEvalで50.6%、MBPPで55.5%の精度を達成した。
論文参考訳（メタデータ） (2023-06-20T16:14:25Z)
Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文参考訳（メタデータ） (2021-12-20T16:52:35Z)
YOLO-ReT: Towards High Accuracy Real-time Object Detection on Edge GPUs [14.85882314822983]
ディープニューラルネットワーク(DNN)ベースのオブジェクト検出モデルをエッジデバイスにマップするには、通常、そのようなモデルを著しく圧縮する必要がある。本稿では,マルチスケール機能インタラクションのためのエッジGPUフレンドリなモジュールを提案する。また,様々なタスク間の翻訳情報の流れの変化にインスパイアされた,新たな学習バックボーンの導入を提案する。
論文参考訳（メタデータ） (2021-10-26T14:02:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。