論文の概要: ORAN-Bench-13K: An Open Source Benchmark for Assessing LLMs in Open Radio Access Networks
- arxiv url: http://arxiv.org/abs/2407.06245v2
- Date: Sat, 13 Jul 2024 22:48:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 21:47:52.811755
- Title: ORAN-Bench-13K: An Open Source Benchmark for Assessing LLMs in Open Radio Access Networks
- Title(参考訳): ORAN-Bench-13K: オープン無線アクセスネットワークにおけるLLMの評価のためのオープンソースベンチマーク
- Authors: Pranshav Gajjar, Vijay K. Shah,
- Abstract要約: 大規模言語モデル(LLM)はオープン無線アクセスネットワーク(O-RAN)の展開と運用方法に革命をもたらす。
ベンチマークは,O-RAN仕様文書116件から得られた13,952件からなる。
我々は,ORAN-Bench-13Kにおいて,他のクローズドソースモデルと比較して優れた性能を示すRAG(Retrieval-Augmented Generation)ベースのパイプラインであるORANSightを提案する。
- 参考スコア(独自算出の注目度): 1.3351610617039973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) can revolutionize how we deploy and operate Open Radio Access Networks (O-RAN) by enhancing network analytics, anomaly detection, and code generation and significantly increasing the efficiency and reliability of a plethora of O-RAN tasks. In this paper, we present ORAN-Bench-13K, the first comprehensive benchmark designed to evaluate the performance of Large Language Models (LLMs) within the context of O-RAN. Our benchmark consists of 13,952 meticulously curated multiple-choice questions generated from 116 O-RAN specification documents. We leverage a novel three-stage LLM framework, and the questions are categorized into three distinct difficulties to cover a wide spectrum of ORAN-related knowledge. We thoroughly evaluate the performance of several state-of-the-art LLMs, including Gemini, Chat-GPT, and Mistral. Additionally, we propose ORANSight, a Retrieval-Augmented Generation (RAG)-based pipeline that demonstrates superior performance on ORAN-Bench-13K compared to other tested closed-source models. Our findings indicate that current popular LLM models are not proficient in O-RAN, highlighting the need for specialized models. We observed a noticeable performance improvement when incorporating the RAG-based ORANSight pipeline, with a Macro Accuracy of 0.784 and a Weighted Accuracy of 0.776, which was on average 21.55% and 22.59% better than the other tested LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ネットワーク分析、異常検出、コード生成を強化し、多数のO-RANタスクの効率と信頼性を大幅に向上することで、Open Radio Access Networks(O-RAN)の展開と運用方法に革命をもたらすことができます。
本稿では,O-RANの文脈内でのLarge Language Models(LLM)の性能を評価するために設計された,最初の総合ベンチマークであるORAN-Bench-13Kを提案する。
ベンチマークは,O-RAN仕様文書116件から得られた13,952件からなる。
我々は,新しい3段階LLMフレームワークを活用し,ORAN関連の知識を幅広く網羅する3つの難問に分類する。
我々は、Gemini、Chat-GPT、Mistralなど、最先端のLLMの性能を徹底的に評価した。
さらに,ORAN-Bench-13Kにおいて,他のクローズドソースモデルと比較して優れた性能を示すRAG(Retrieval-Augmented Generation)ベースのパイプラインであるORANSightを提案する。
以上の結果から,現在のLLMモデルはO-RANに精通していないことが示唆され,特殊なモデルの必要性が浮き彫りになっている。
我々はRAGをベースとしたORANSightパイプラインをマクロ精度0.784、重量精度0.776で組み込んだ場合の顕著な性能改善を観察した。
関連論文リスト
- Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。
本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:16:03Z) - Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。
近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。
拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文 参考訳(メタデータ) (2024-06-07T04:52:46Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
本研究では,ゲーム理論のレンズによる大規模言語モデルの意思決定能力について検討する。
2人以上のエージェントが同時に参加するゲームに特化しています。
我々は,8つの古典的マルチエージェントゲームを含むGAMA-Benchというフレームワークを紹介した。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - Sequencing Matters: A Generate-Retrieve-Generate Model for Building
Conversational Agents [9.191944519634111]
Georgetown InfoSense GroupはTREC iKAT 2023の課題を解決するために活動している。
提案手法は, 各カット数, 総合成功率において, nDCG において高い性能を示した。
我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。
論文 参考訳(メタデータ) (2023-11-16T02:37:58Z) - Evaluating Diverse Large Language Models for Automatic and General Bug
Reproduction [12.851941377433285]
大規模言語モデル(LLM)は自然言語処理やコード生成に適していることが証明されている。
提案手法は,広く使用されているDefects4Jベンチマークにおいて,全バグの約3分の1を再現することができた。
論文 参考訳(メタデータ) (2023-11-08T08:42:30Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。