論文の概要: LLMOrbit: A Circular Taxonomy of Large Language Models -From Scaling Walls to Agentic AI Systems
- arxiv url: http://arxiv.org/abs/2601.14053v1
- Date: Tue, 20 Jan 2026 15:06:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.376436
- Title: LLMOrbit: A Circular Taxonomy of Large Language Models -From Scaling Walls to Agentic AI Systems
- Title(参考訳): LLMOrbit: 大規模言語モデルの循環分類 -エージェントAIシステムへの壁のスケーリング
- Authors: Badri N. Patro, Vijay S. Agneeswaran,
- Abstract要約: この調査では、8つの相互接続軌道次元を通して、15の組織にわたる50以上のモデルを調査した。
1)データ不足(2026-2028年までに減少する9-27Tトークン)、(2)指数的なコスト増加(5年間で3M~3M+)、(3)持続不可能なエネルギー消費(22倍)の3つの重大な危機を識別する。
トレーニング後ゲイン(RLHF, GRPO, pure RL)、DeepSeek-R1(79.8% MATH)、効率革命(MoEルーティング18x効率、マルチヘッド遅延注意8xKVキャッシュ圧縮)により、GPT-4レベルのパフォーマンスを$で実現している。
- 参考スコア(独自算出の注目度): 3.183924309596046
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The field of artificial intelligence has undergone a revolution from foundational Transformer architectures to reasoning-capable systems approaching human-level performance. We present LLMOrbit, a comprehensive circular taxonomy navigating the landscape of large language models spanning 2019-2025. This survey examines over 50 models across 15 organizations through eight interconnected orbital dimensions, documenting architectural innovations, training methodologies, and efficiency patterns defining modern LLMs, generative AI, and agentic systems. We identify three critical crises: (1) data scarcity (9-27T tokens depleted by 2026-2028), (2) exponential cost growth ($3M to $300M+ in 5 years), and (3) unsustainable energy consumption (22x increase), establishing the scaling wall limiting brute-force approaches. Our analysis reveals six paradigms breaking this wall: (1) test-time compute (o1, DeepSeek-R1 achieve GPT-4 performance with 10x inference compute), (2) quantization (4-8x compression), (3) distributed edge computing (10x cost reduction), (4) model merging, (5) efficient training (ORPO reduces memory 50%), and (6) small specialized models (Phi-4 14B matches larger models). Three paradigm shifts emerge: (1) post-training gains (RLHF, GRPO, pure RL contribute substantially, DeepSeek-R1 achieving 79.8% MATH), (2) efficiency revolution (MoE routing 18x efficiency, Multi-head Latent Attention 8x KV cache compression enables GPT-4-level performance at <$0.30/M tokens), and (3) democratization (open-source Llama 3 88.6% MMLU surpasses GPT-4 86.4%). We provide insights into techniques (RLHF, PPO, DPO, GRPO, ORPO), trace evolution from passive generation to tool-using agents (ReAct, RAG, multi-agent systems), and analyze post-training innovations.
- Abstract(参考訳): 人工知能の分野は、基礎的なトランスフォーマーアーキテクチャから人間レベルのパフォーマンスに近づいた推論可能なシステムへと革命を遂げている。
LLMOrbitは,2019年から2025年にかけての大規模言語モデルの景観を探索する包括的循環分類法である。
この調査では、15の組織にまたがる50以上のモデルを、8つの相互接続された軌道次元を通じて調査し、アーキテクチャの革新、トレーニング方法論、近代的なLLM、生成AI、エージェントシステムを定義する効率パターンを文書化している。
1)データ不足(2026-2028年までに減少する9-27Tトークン)、(2)指数的コスト増加(5年間で3M~3M+)、(3)持続不可能なエネルギー消費(22倍増加)の3つの重要な危機を特定し、ブルートフォースアプローチのスケーリング壁を確立する。
実験時間計算(o1, DeepSeek-R1)、量子化(4~8倍の圧縮)、分散エッジコンピューティング(10倍のコスト削減)、(4)モデルマージ、(5)効率的なトレーニング(ORPOによるメモリ50%削減)、(6)小さな特殊モデル(Phi-4 14Bはより大きなモデルに適合する)。
トレーニング後ゲイン(RLHF, GRPO, 純RL)、DeepSeek-R1(79.8% MATH)、効率革命(MoEルーティング18x効率、マルチヘッド遅延注意 8xKVキャッシュ圧縮により、0.00/MトークンでのGPT-4レベルのパフォーマンスを実現し、(3)民主化(オープンソースのLlama 3 88.6%MMLUはGPT-4 86.4%を上回っている)、の3つのパラダイムシフトが出現する。
RLHF, PPO, DPO, GRPO, ORPO)、受動的生成からツール利用エージェント(ReAct, RAG, マルチエージェントシステム)へのトレース進化、そしてポストトレーニング後のイノベーションを分析する。
関連論文リスト
- Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model [100.86587937568832]
Ring-1Tは、数兆のパラメータを持つ最初のオープンソースの最先端の思考モデルである。
総パラメータは1兆で、1トークンあたり約500億を活性化する。
論文 参考訳(メタデータ) (2025-10-21T17:46:14Z) - YOLO-ROC: A High-Precision and Ultra-Lightweight Model for Real-Time Road Damage Detection [0.0]
道路損傷検出は、交通安全を確保し、インフラの整合性を維持するための重要な課題である。
本稿では, 道路直交コンパクト(YOLO-ROC)の高精度軽量モデルを提案する。
論文 参考訳(メタデータ) (2025-07-31T03:35:19Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't [0.0]
小型言語モデル(LLM)における強化学習による推論改善の可能性について検討した。
24時間以内に4つのNVIDIA A40 GPU(それぞれ48GB VRAM)をトレーニングした結果、素早い推論が向上した。
これらの結果から, 小型LLMに対するRLを用いた微調整の有効性が明らかとなり, 大規模アプローチに対する費用対効果が示唆された。
論文 参考訳(メタデータ) (2025-03-20T15:13:23Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。