論文の概要: ORAN-Bench-13K: An Open Source Benchmark for Assessing LLMs in Open Radio Access Networks
- arxiv url: http://arxiv.org/abs/2407.06245v2
- Date: Sat, 13 Jul 2024 22:48:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 21:47:52.811755
- Title: ORAN-Bench-13K: An Open Source Benchmark for Assessing LLMs in Open Radio Access Networks
- Title(参考訳): ORAN-Bench-13K: オープン無線アクセスネットワークにおけるLLMの評価のためのオープンソースベンチマーク
- Authors: Pranshav Gajjar, Vijay K. Shah,
- Abstract要約: 大規模言語モデル(LLM)はオープン無線アクセスネットワーク(O-RAN)の展開と運用方法に革命をもたらす。
ベンチマークは,O-RAN仕様文書116件から得られた13,952件からなる。
我々は,ORAN-Bench-13Kにおいて,他のクローズドソースモデルと比較して優れた性能を示すRAG(Retrieval-Augmented Generation)ベースのパイプラインであるORANSightを提案する。
- 参考スコア(独自算出の注目度): 1.3351610617039973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) can revolutionize how we deploy and operate Open Radio Access Networks (O-RAN) by enhancing network analytics, anomaly detection, and code generation and significantly increasing the efficiency and reliability of a plethora of O-RAN tasks. In this paper, we present ORAN-Bench-13K, the first comprehensive benchmark designed to evaluate the performance of Large Language Models (LLMs) within the context of O-RAN. Our benchmark consists of 13,952 meticulously curated multiple-choice questions generated from 116 O-RAN specification documents. We leverage a novel three-stage LLM framework, and the questions are categorized into three distinct difficulties to cover a wide spectrum of ORAN-related knowledge. We thoroughly evaluate the performance of several state-of-the-art LLMs, including Gemini, Chat-GPT, and Mistral. Additionally, we propose ORANSight, a Retrieval-Augmented Generation (RAG)-based pipeline that demonstrates superior performance on ORAN-Bench-13K compared to other tested closed-source models. Our findings indicate that current popular LLM models are not proficient in O-RAN, highlighting the need for specialized models. We observed a noticeable performance improvement when incorporating the RAG-based ORANSight pipeline, with a Macro Accuracy of 0.784 and a Weighted Accuracy of 0.776, which was on average 21.55% and 22.59% better than the other tested LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ネットワーク分析、異常検出、コード生成を強化し、多数のO-RANタスクの効率と信頼性を大幅に向上することで、Open Radio Access Networks(O-RAN)の展開と運用方法に革命をもたらすことができます。
本稿では,O-RANの文脈内でのLarge Language Models(LLM)の性能を評価するために設計された,最初の総合ベンチマークであるORAN-Bench-13Kを提案する。
ベンチマークは,O-RAN仕様文書116件から得られた13,952件からなる。
我々は,新しい3段階LLMフレームワークを活用し,ORAN関連の知識を幅広く網羅する3つの難問に分類する。
我々は、Gemini、Chat-GPT、Mistralなど、最先端のLLMの性能を徹底的に評価した。
さらに,ORAN-Bench-13Kにおいて,他のクローズドソースモデルと比較して優れた性能を示すRAG(Retrieval-Augmented Generation)ベースのパイプラインであるORANSightを提案する。
以上の結果から,現在のLLMモデルはO-RANに精通していないことが示唆され,特殊なモデルの必要性が浮き彫りになっている。
我々はRAGをベースとしたORANSightパイプラインをマクロ精度0.784、重量精度0.776で組み込んだ場合の顕著な性能改善を観察した。
関連論文リスト
- LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs - No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。
LaRAは4つのQAタスクカテゴリと3種類の自然発生長文を対象とした2,326のテストケースを含んでいる。
RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文 参考訳(メタデータ) (2025-02-14T08:04:22Z) - LLM-Powered Benchmark Factory: Reliable, Generic, and Efficient [19.673388630963807]
我々は,4次元と10の基準で構成された,自動的かつ偏りのない評価フレームワークを提案する。
本フレームワークでは,大規模言語モデル(LLM)を汎用ベンチマークジェネレータとして直接プロンプトする利点と弱点を解析する。
次に、識別された弱点に対処し、それらをBenchMakerとして統合する一連の方法を紹介します。
実験により、BenchMakerは、すべてのメトリクスにおいて、人による注釈付きベンチマークよりも優れた、あるいは同等のパフォーマンスを達成することが確認された。
論文 参考訳(メタデータ) (2025-02-02T06:36:01Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly [34.205934899868346]
HELMETは7つの多様なアプリケーション中心のカテゴリを包含する総合ベンチマークである。
NIAHのような合成タスクは、下流のパフォーマンスの予測に適していないことが分かりました。
ほとんどのLCLMは完全なNIAHスコアを達成しているが、タスクがフルコンテキスト推論を必要とする場合、オープンソースモデルはクローズドなスコアよりも大幅に遅れている。
論文 参考訳(メタデータ) (2024-10-03T17:20:11Z) - Measuring and Enhancing Trustworthiness of LLMs in RAG through Grounded Attributions and Learning to Refuse [27.26121507279163]
本稿では,RAGフレームワークにおけるLCMの信頼性を評価する総合指標であるTrust-Scoreを紹介する。
この結果から,LLMをRAGタスクに効果的に適応させるには,文脈内学習などの様々なプロンプト手法が不十分であることが示唆された。
信頼スコア性能向上のためのLCMの整合化手法であるTrust-Alignを提案する。
論文 参考訳(メタデータ) (2024-09-17T14:47:33Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。