論文の概要: Small Language Models: Architectures, Techniques, Evaluation, Problems and Future Adaptation
- arxiv url: http://arxiv.org/abs/2505.19529v2
- Date: Thu, 29 May 2025 16:57:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 15:42:34.188123
- Title: Small Language Models: Architectures, Techniques, Evaluation, Problems and Future Adaptation
- Title(参考訳): 小言語モデル:アーキテクチャ、テクニック、評価、問題、今後の適応
- Authors: Tanjil Hasan Sakib, Md. Tanzib Hosain, Md. Kishor Morol,
- Abstract要約: 小言語モデル(SLM)は、多種多様な言語タスクをうまく実行できることから、大きな注目を集めている。
本研究では,SLMの完全な評価,設計フレームワークの重視,トレーニングアプローチ,モデルサイズと複雑性の低減技術について述べる。
本研究では, SLM に適用された最適化手法を整理し, プルーニング, 量子化, モデル圧縮などの戦略を包含する新たな分類システムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Small Language Models (SLMs) have gained substantial attention due to their ability to execute diverse language tasks successfully while using fewer computer resources. These models are particularly ideal for deployment in limited environments, such as mobile devices, on-device processing, and edge systems. In this study, we present a complete assessment of SLMs, focussing on their design frameworks, training approaches, and techniques for lowering model size and complexity. We offer a novel classification system to organize the optimization approaches applied for SLMs, encompassing strategies like pruning, quantization, and model compression. Furthermore, we assemble SLM's studies of evaluation suite with some existing datasets, establishing a rigorous platform for measuring SLM capabilities. Alongside this, we discuss the important difficulties that remain unresolved in this sector, including trade-offs between efficiency and performance, and we suggest directions for future study. We anticipate this study to serve as a beneficial guide for researchers and practitioners who aim to construct compact, efficient, and high-performing language models.
- Abstract(参考訳): 小言語モデル (SLM) は、コンピュータリソースを減らしながら多種多様な言語タスクをうまく実行できることから、大きな注目を集めている。
これらのモデルは、モバイルデバイス、オンデバイス処理、エッジシステムなど、限られた環境でのデプロイに特に適しています。
本研究では,SLMの完全な評価,設計フレームワークの重視,トレーニングアプローチ,モデルサイズと複雑性の低減技術について述べる。
本研究では, SLM に適用された最適化手法を整理し, プルーニング, 量子化, モデル圧縮などの戦略を包含する新たな分類システムを提案する。
さらに,SLMの評価スイートを既存のデータセットと組み合わせて構築し,SLMの能力を測定するための厳密なプラットフォームを構築した。
これに加えて、効率と性能のトレードオフを含む、この分野で未解決のままである重要な課題について議論し、今後の研究の方向性を提案する。
本研究は,コンパクトで効率的で高性能な言語モデルの構築を目指す研究者や実践者にとって,有益なガイドとなると期待されている。
関連論文リスト
- A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - A Survey: Collaborative Hardware and Software Design in the Era of Large Language Models [16.250856588632637]
大規模言語モデル(LLM)の急速な発展は、人工知能の分野を大きく変えた。
これらのモデルは多様なアプリケーションに統合され、研究と産業の両方に影響を及ぼす。
本稿では,大規模言語モデルの特徴と制約に対処するために,ハードウェアとソフトウェアの共同設計手法について検討する。
論文 参考訳(メタデータ) (2024-10-08T21:46:52Z) - Designing Large Foundation Models for Efficient Training and Inference: A Survey [35.40505841618305]
本稿では,基礎モデルに基づく現代的効率的なトレーニングと推論技術に焦点を当てる。
モデルとシステムデザイン 計算資源を節約するために、異なる側面からのLLMトレーニングと推論を最適化する。
論文 参考訳(メタデータ) (2024-09-03T15:35:01Z) - RED-CT: A Systems Design Methodology for Using LLM-labeled Data to Train and Deploy Edge Classifiers for Computational Social Science [0.46560775769914914]
大規模言語モデル(LLM)は、構造化されていない自然言語データを迅速に分析し分類する能力を向上した。
しかしながら、コスト、ネットワーク制限、セキュリティ上の制約に関する懸念は、彼らの作業プロセスへの統合に問題を引き起こしている。
本研究では,下流教師あり学習タスクにおいて,LLMを不完全なデータアノテータとして利用するシステム設計手法を採用する。
論文 参考訳(メタデータ) (2024-08-15T15:28:37Z) - Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、教師付き微調整(SFT)の一般的な方法論を含む、文献の体系的なレビューを行う。
また、既存の戦略の欠陥を指摘しながら、SFTの潜在的な落とし穴についても、それに対する批判とともに検討する。
論文 参考訳(メタデータ) (2023-08-21T15:35:16Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。