論文の概要: 6G-Bench: An Open Benchmark for Semantic Communication and Network-Level Reasoning with Foundation Models in AI-Native 6G Networks
- arxiv url: http://arxiv.org/abs/2602.08675v1
- Date: Mon, 09 Feb 2026 13:57:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.261531
- Title: 6G-Bench: An Open Benchmark for Semantic Communication and Network-Level Reasoning with Foundation Models in AI-Native 6G Networks
- Title(参考訳): 6G-Bench: AI-Native 6G Networksにおけるセマンティックコミュニケーションとネットワークレベル推論のためのオープンベンチマーク
- Authors: Mohamed Amine Ferrag, Abderrahmane Lakas, Merouane Debbah,
- Abstract要約: 6G-Benchは、AIネイティブな6Gネットワークにおけるセマンティックコミュニケーションとネットワークレベルの推論を評価するためのオープンベンチマークである。
我々はタスク条件付きプロンプトを用いて1万個の非常にハードな複数選択質問のバランスの取れたプールを生成する。
我々は,22の基盤モデルについて,密集型および混成型アーキテクチャ,短文型および長文型アーキテクチャについて検討した。
- 参考スコア(独自算出の注目度): 3.099103925863002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces 6G-Bench, an open benchmark for evaluating semantic communication and network-level reasoning in AI-native 6G networks. 6G-Bench defines a taxonomy of 30 decision-making tasks (T1--T30) extracted from ongoing 6G and AI-agent standardization activities in 3GPP, IETF, ETSI, ITU-T, and the O-RAN Alliance, and organizes them into five standardization-aligned capability categories. Starting from 113,475 scenarios, we generate a balanced pool of 10,000 very-hard multiple-choice questions using task-conditioned prompts that enforce multi-step quantitative reasoning under uncertainty and worst-case regret minimization over multi-turn horizons. After automated filtering and expert human validation, 3,722 questions are retained as a high-confidence evaluation set, while the full pool is released to support training and fine-tuning of 6G-specialized models. Using 6G-Bench, we evaluate 22 foundation models spanning dense and mixture-of-experts architectures, short- and long-context designs (up to 1M tokens), and both open-weight and proprietary systems. Across models, deterministic single-shot accuracy (pass@1) spans a wide range from 0.22 to 0.82, highlighting substantial variation in semantic reasoning capability. Leading models achieve intent and policy reasoning accuracy in the range 0.87--0.89, while selective robustness analysis on reasoning-intensive tasks shows pass@5 values ranging from 0.20 to 0.91. To support open science and reproducibility, we release the 6G-Bench dataset on GitHub: https://github.com/maferrag/6G-Bench
- Abstract(参考訳): 本稿では,AIネイティブな6Gネットワークにおけるセマンティックコミュニケーションとネットワークレベルの推論を評価するためのオープンベンチマークである6G-Benchを紹介する。
6G-Benchは、3GPP、IETF、ETSI、ITU-T、O-RAN Allianceで進行中の6GおよびAIエージェント標準化活動から抽出された30の意思決定タスク(T1-T30)の分類を定義し、それらを5つの標準化対応機能カテゴリに分類する。
113,475のシナリオから、タスク条件付きプロンプトを用いて、1万の非常にハードな複数の質問のバランスの取れたプールを生成します。
自動フィルタリングと熟練した人間の検証の後、3,722の質問が高信頼度評価セットとして保持され、フルプールは6G特化モデルのトレーニングと微調整をサポートするためにリリースされた。
6G-Benchを用いて,密集・混成アーキテクチャ,短コンテキスト・長コンテキスト設計(最大100万トークン),オープンウェイト・プロプライエタリシステムの両方にまたがる22の基盤モデルを評価した。
モデル全体では、決定論的単発精度(pass@1)は0.22から0.82まで幅広い範囲にわたっており、意味推論能力のかなりのバリエーションが強調されている。
一方、推論集約タスクの選択的ロバスト性分析では、0.20から0.91の範囲のpass@5値が示されている。
オープンサイエンスと再現性をサポートするため、GitHubで6G-Benchデータセットをリリースしました。
関連論文リスト
- Efficient Multi-Model Orchestration for Self-Hosted Large Language Models [2.3275796286410677]
Pick and Spinは、セルフホストのオーケストレーションと経済性を実現するフレームワークである。
統合されたHelmベースのデプロイメントシステム、適応型スケールツーゼロ自動化、ハイブリッドルーティングモジュールを統合している。
最大21.6%の成功率、30%のレイテンシ、クエリ毎のコストの33%削減を実現している。
論文 参考訳(メタデータ) (2025-12-26T22:42:40Z) - MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes [60.57770396565211]
強い推論能力は、はるかに少ないデータで実現可能であることを示す。
MobileLLM-R50MのAIMEスコアは15.5であり、OLMo-2-1.48Bは0.6、SmolLM-2-1.7Bは0.3である。
論文 参考訳(メタデータ) (2025-09-29T15:43:59Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Generative AI Enabled Matching for 6G Multiple Access [51.00960374545361]
我々は6G多重アクセスをサポートするGenAI対応マッチング生成フレームワークを提案する。
我々のフレームワークは、与えられた条件と事前定義された報酬に基づいて、より効果的なマッチング戦略を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-29T13:01:26Z) - Uncovering Weaknesses in Neural Code Generation [21.552898575210534]
マッチングベースのメトリクスと実行ベースのメトリクスを用いて生成されたコードの品質を評価し、その後、セマンティック分析を行い、9種類の弱点の分類法を開発する。
CoNaLaデータセットでは、不正確なプロンプトが顕著な問題であり、すべての大きなモデルが26.84%のケースで失敗する。
CoNaLaタスクの65.78%でキーセマンティクスを省略する1つ以上の大きなモデルがある。
すべてのモデルは、あいまいなプロンプトや複雑なプロンプトによって増幅された、適切なAPI使用に苦しむ。
論文 参考訳(メタデータ) (2024-07-13T07:31:43Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Toward 6G Native-AI Network: Foundation Model based Cloud-Edge-End Collaboration Framework [55.73948386625618]
データ、AIモデル、運用パラダイムの観点から、6GネイティブAIを達成する上での課題を分析します。
基礎モデルに基づく6GネイティブAIフレームワークを提案し、専門家の知識の統合方法を提供し、2種類のPFMのカスタマイズを提示し、ネイティブAIフレームワークの新たな運用パラダイムを概説する。
論文 参考訳(メタデータ) (2023-10-26T15:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。