論文の概要: Comparison of Large Language Models for Deployment Requirements
- arxiv url: http://arxiv.org/abs/2508.00185v1
- Date: Thu, 31 Jul 2025 22:03:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.678844
- Title: Comparison of Large Language Models for Deployment Requirements
- Title(参考訳): 大規模言語モデルによるデプロイメント要件の比較
- Authors: Alper Yaman, Jannik Schwab, Christof Nitsche, Abhirup Sinha, Marco Huber,
- Abstract要約: 大規模言語モデル(LLM)は、人間に似たテキストの生成に革命をもたらしている。
バイアスや幻覚といった課題にもかかわらず、これらのAIモデルはコンテンツ生成、翻訳、コード生成といったタスクに優れています。
我々は、リリース年、ライセンス、ハードウェア要件といった機能に焦点を当てた基礎モデルとドメイン固有のモデルの比較リストを提示する。
- 参考スコア(独自算出の注目度): 1.4155748588033552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), such as Generative Pre-trained Transformers (GPTs) are revolutionizing the generation of human-like text, producing contextually relevant and syntactically correct content. Despite challenges like biases and hallucinations, these Artificial Intelligence (AI) models excel in tasks, such as content creation, translation, and code generation. Fine-tuning and novel architectures, such as Mixture of Experts (MoE), address these issues. Over the past two years, numerous open-source foundational and fine-tuned models have been introduced, complicating the selection of the optimal LLM for researchers and companies regarding licensing and hardware requirements. To navigate the rapidly evolving LLM landscape and facilitate LLM selection, we present a comparative list of foundational and domain-specific models, focusing on features, such as release year, licensing, and hardware requirements. This list is published on GitLab and will be continuously updated.
- Abstract(参考訳): ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)のような大規模言語モデル(LLM)は、文脈的に関連性があり、構文的に正しいコンテンツを生成する、人間のようなテキストの生成に革命をもたらしている。
バイアスや幻覚といった課題にもかかわらず、これらの人工知能(AI)モデルは、コンテンツ生成、翻訳、コード生成といったタスクに優れています。
ファインチューニングとMixture of Experts (MoE)のような新しいアーキテクチャは、これらの問題に対処する。
過去2年間で、多くのオープンソース基盤モデルと微調整モデルが導入され、ライセンスとハードウェア要件に関する研究者や企業にとって最適なLLMの選択が複雑になった。
急速に発展しているLCMの展望をナビゲートし、LCMの選択を容易にするため、リリース年、ライセンス、ハードウェア要件といった機能に焦点を当てた基礎モデルとドメイン固有のモデルの比較リストを提示する。
このリストはGitLabで公開されており、継続的に更新される予定である。
関連論文リスト
- Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Exploring Code Language Models for Automated HLS-based Hardware Generation: Benchmark, Infrastructure and Analysis [14.458529723566379]
LLM(Large Language Model)は、PythonやC++などのプログラミング言語に使用される。
本稿では,LLMを利用してHLS(High-Level Synthesis)ベースのハードウェア設計を行う。
論文 参考訳(メタデータ) (2025-02-19T17:53:59Z) - Survey of different Large Language Model Architectures: Trends, Benchmarks, and Challenges [15.850548556536538]
大規模言語モデル(LLMs)は、自然言語の理解に精通したディープラーニングモデルのクラスである。
これらのモデルの先進的なサブセットであるMultimodal Large Language Models (MLLM)は、複数のデータモダリティを処理および解釈するためにLLM機能を拡張している。
本調査は,LLMの最近の進歩を概観する。
論文 参考訳(メタデータ) (2024-12-04T11:14:06Z) - Comparison of Open-Source and Proprietary LLMs for Machine Reading Comprehension: A Practical Analysis for Industrial Applications [0.0]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)アプリケーションで顕著な性能を示した。
本稿では,オープンソースLLMとプロプライエタリモデルの比較分析を行う。
論文 参考訳(メタデータ) (2024-06-19T17:11:51Z) - UniRAG: Universal Retrieval Augmentation for Large Vision Language Models [76.30799731147589]
そこで,UniRAGというプラグイン・アンド・プレイ技術を紹介した。
Retrieval Augmentation(RA)は、主に非一般的なエンティティの生成や理解を改善するという一般的な信念とは異なり、MSCOCOデータセットの共通エンティティによる評価結果は、プロプライエタリモデルとより小さなオープンソースモデルの両方が生成品質を著しく向上させることを示している。
論文 参考訳(メタデータ) (2024-05-16T17:58:45Z) - Xiwu: A Basis Flexible and Learnable LLM for High Energy Physics [8.483323041108774]
大規模言語モデル(LLM)は、急激な更新と変更の期間を経ている。
モデル自体を前進させながら、ユニークなドメイン知識を取得することは困難です。
Xiwuという名前の高度な大規模言語モデルシステムが開発され、最も先進的な基礎モデルの切り替えが可能になった。
論文 参考訳(メタデータ) (2024-04-08T07:37:31Z) - A Review of Multi-Modal Large Language and Vision Models [1.9685736810241874]
大規模言語モデル(LLM)が研究と応用の焦点として登場した。
近年、LLMはマルチモーダル大言語モデル(MM-LLM)に拡張されている。
本稿では,近年のMM-LLMとともに,マルチモーダル機能を有するLLMの現状を概観する。
論文 参考訳(メタデータ) (2024-03-28T15:53:45Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - Advancing Transformer Architecture in Long-Context Large Language
Models: A Comprehensive Survey [18.930417261395906]
トランスフォーマーベースの大規模言語モデル(LLM)は、知識ベース、ヒューマンインタフェース、動的エージェントなど様々な分野に適用されている。
本稿では,トランスフォーマーをベースとしたLLMアーキテクチャの最近の進歩について,LLMの長期的コンテキスト能力の向上を目的とした調査を行う。
論文 参考訳(メタデータ) (2023-11-21T04:59:17Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - BLOOM: A 176B-Parameter Open-Access Multilingual Language Model [264.96498474333697]
大規模言語モデル(LLM)は、いくつかのデモや自然言語命令に基づいて新しいタスクを実行できることが示されている。
BLOOMは、176Bパラメータのオープンアクセス言語モデルであり、数百人の研究者の協力により設計・構築されている。
BLOOMは、RATSコーパスでトレーニングされたデコーダのみのトランスフォーマー言語モデルである。
論文 参考訳(メタデータ) (2022-11-09T18:48:09Z) - Augmenting Interpretable Models with LLMs during Training [73.40079895413861]
本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。
Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。
自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
論文 参考訳(メタデータ) (2022-09-23T18:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。