論文の概要: How Small Can 6G Reason? Scaling Tiny Language Models for AI-Native Networks
- arxiv url: http://arxiv.org/abs/2603.02156v1
- Date: Mon, 02 Mar 2026 18:19:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:57.027695
- Title: How Small Can 6G Reason? Scaling Tiny Language Models for AI-Native Networks
- Title(参考訳): 6Gはどんなに小さいのか? AI-Native NetworksのためのTiny Language Modelのスケーリング
- Authors: Mohamed Amine Ferrag, Abderrahmane Lakas, Merouane Debbah,
- Abstract要約: AIネイティブな6Gシステムにおけるネットワークレベルの意味推論のためのコンパクト言語モデルのスケーリング挙動と展開効率について検討する。
我々は,Llama-3.2-1B,Granite-1B,Qwen2.5-3Bなどの中規模アーキテクチャを含む135M(SmolLM2-135M)から7Bパラメータ(Qwen2.5-7B)までのモデルを評価する。
- 参考スコア(独自算出の注目度): 3.099103925863002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emerging 6G visions, reflected in ongoing standardization efforts within 3GPP, IETF, ETSI, ITU-T, and the O-RAN Alliance, increasingly characterize networks as AI-native systems in which high-level semantic reasoning layers operate above standardized control and data-plane functions. Although frontier-scale large language models (LLMs) such as Qwen2.5-7B and Olmo-3-7B demonstrate strong reasoning capability, their computational footprint limits deployment in latency-sensitive, edge-native infrastructures. This paper presents a systematic empirical study of the scaling behavior and deployment efficiency of compact language models for network-level semantic reasoning in AI-native 6G systems. Using 6G-Bench, a standardization-aligned benchmark comprising 30 decision-making tasks across five capability domains, we evaluate models ranging from 135M (SmolLM2-135M) to 7B parameters (Qwen2.5-7B), including mid-scale architectures such as Llama-3.2-1B, Granite-1B, and Qwen2.5-3B. Deterministic accuracy (pass@1) increases from 0.224 at 135M to 0.707 at 7B, but scaling gains are highly non-uniform. A pronounced stability transition occurs in the 1 to 1.5B range, where accuracy rises from 0.373 (Llama-3.2-1B) to 0.531 (Qwen2.5-1.5B) and the instability gap Delta_5 contracts from 0.356 to 0.138. Beyond 3B parameters, improvements diminish (+0.064 from 3B to 7B). Through single-query inference profiling and an Edge Score metric that normalizes accuracy by latency and memory footprint, we show that semantic reliability per unit edge resource does not scale monotonically with parameter count. Instead, mid-scale models (approximately 1.5 to 3B) achieve the most favorable balance between deterministic stability and computational efficiency, providing deployment-relevant guidance for AI-native 6G architectures. All scripts and results are publicly available at https://github.com/maferrag/6G-Bench
- Abstract(参考訳): 新たな6Gビジョンは、3GPP、IETF、ETSI、ITU-T、O-RAN Alliance内で進行中の標準化活動に反映され、ハイレベルなセマンティック推論レイヤが標準化されたコントロールとデータプレーン関数の上で動作しているAIネイティブシステムとして、ネットワークをますます特徴付けている。
Qwen2.5-7BやOlmo-3-7Bのようなフロンティアスケールの大規模言語モデル(LLM)は強力な推論能力を示しているが、計算フットプリントはレイテンシに敏感でエッジネイティブなインフラでのデプロイメントを制限する。
本稿では,AIネイティブな6Gシステムにおけるネットワークレベルの意味推論のためのコンパクト言語モデルのスケーリング挙動と展開効率について,系統的研究を行った。
6G-Bench を用いて,Llama-3.2-1B,Granite-1B,Qwen2.5-3B などの中規模アーキテクチャを含む 135M (SmolLM2-135M) から 7B パラメータ (Qwen2.5-7B) までのモデルを評価した。
決定論的精度 (pass@1) は 135M では 0.224 から 7B では 0.707 へと上昇するが、スケーリングゲインは非常に不均一である。
1から1.5Bの範囲で顕著な安定性遷移が起こり、精度は0.373(Llama-3.2-1B)から0.531(Qwen2.5-1.5B)に上昇し、不安定ギャップDelta_5は0.356から0.138に上昇する。
3Bパラメータを超えて、改善は減少する(3Bから7Bまで0.064)。
レイテンシとメモリフットプリントによって精度を正規化する単一クエリ推論プロファイリングとEdge Scoreメトリックを通じて、単位エッジリソースごとのセマンティック信頼性がパラメータ数と単調にスケールしないことを示す。
代わりに、中規模モデル(約1.5~3B)は、決定論的安定性と計算効率の最も好ましいバランスを実現し、AIネイティブな6Gアーキテクチャのデプロイメント関連ガイダンスを提供する。
すべてのスクリプトと結果はhttps://github.com/maferrag/6G-Benchで公開されている。
関連論文リスト
- Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters [169.7981969517903]
Step 3.5 Flashは、フロンティアレベルのエージェントインテリジェンスと計算効率を橋渡しする。
エージェントを構築する上で最も重要なもの、すなわち、シャープな推論と高速で信頼性の高い実行に重点を置いています。
論文 参考訳(メタデータ) (2026-02-11T07:53:51Z) - 6G-Bench: An Open Benchmark for Semantic Communication and Network-Level Reasoning with Foundation Models in AI-Native 6G Networks [3.099103925863002]
6G-Benchは、AIネイティブな6Gネットワークにおけるセマンティックコミュニケーションとネットワークレベルの推論を評価するためのオープンベンチマークである。
我々はタスク条件付きプロンプトを用いて1万個の非常にハードな複数選択質問のバランスの取れたプールを生成する。
我々は,22の基盤モデルについて,密集型および混成型アーキテクチャ,短文型および長文型アーキテクチャについて検討した。
論文 参考訳(メタデータ) (2026-02-09T13:57:37Z) - Qwen3-ASR Technical Report [71.87071808763484]
2つの強力なオールインワン音声認識モデルと、新しい非自己回帰音声強制アライメントモデルを含むQwen3-ASRファミリを紹介する。
Qwen3-ASR-1.7BとQwen3-ASR-0.6Bは、言語識別と52の言語および方言のASRをサポートするASRモデルである。
論文 参考訳(メタデータ) (2026-01-29T06:58:13Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B [12.229008422568192]
本稿では,SSP(Spectrum-to-Signal Principle)を用いた1.5Bパラメータ密度モデルであるVibeThinker-1.5Bを紹介する。
VibeThinker-1.5Bの総トレーニングコストは7800ドルに過ぎず、クローズドソースモデルよりも優れた推論能力を示している。
注目すべきは、3つのベンチマークで400倍のDeepSeek R1を上回っていることだ。
論文 参考訳(メタデータ) (2025-11-09T04:37:36Z) - Adaptive Monitoring and Real-World Evaluation of Agentic AI Systems [3.215065407261898]
大規模言語モデルと外部ツールを組み合わせたマルチエージェントシステムは、研究機関からハイテイクドメインへと急速に移行している。
この「先進的な」続編は、アルゴリズムのインスタンス化や経験的な証拠を提供することで、そのギャップを埋める。
AMDMは擬似ゴールドリフトで異常検出遅延を12.3秒から5.6秒に減らし、偽陽性率を4.5%から0.9%に下げる。
論文 参考訳(メタデータ) (2025-08-28T15:52:49Z) - LLM-Based Emulation of the Radio Resource Control Layer: Towards AI-Native RAN Protocols [28.04609776570199]
大型AIモデル(LAM)はAI-Native Air Interface(AI-AI)の重要な実現要因である
本稿では,デコーダのみのLAMを用いた無線リソース制御層の最初の標準準拠エミュレーションを提案する。
その結果,LSMをプロトコル対応推論で拡張すると,制御プレーンの手順を直接オーケストレーションできることがわかった。
論文 参考訳(メタデータ) (2025-05-22T15:55:56Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z) - S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer [49.1761733723771]
本稿では,テキスト・画像生成における効率的なスケーリングを実現する線形拡散変換器であるSANA-1.5を提案する。
効率的なトレーニングスケーリング、モデルの深さ決定、推論時間スケーリングの3つの重要なイノベーションを紹介します。
これらの戦略により、SANA-1.5 は GenEval 上のテキスト計算画像アライメントスコア 0.81 を達成し、VILA-Judge による推論スケーリングにより、さらに 0.96 に改善できる。
論文 参考訳(メタデータ) (2025-01-30T15:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。