論文の概要: Evaluating Open-Source Large Language Models for Technical Telecom Question Answering
- arxiv url: http://arxiv.org/abs/2509.21949v1
- Date: Fri, 26 Sep 2025 06:29:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.240259
- Title: Evaluating Open-Source Large Language Models for Technical Telecom Question Answering
- Title(参考訳): 技術テレコム質問応答のためのオープンソースの大規模言語モデルの評価
- Authors: Arina Caraus, Alessio Buscemi, Sumit Kumar, Ion Turcanu,
- Abstract要約: 本稿では,2つのオープンソースのLarge Language Model,Gemma 3 27BとDeepSeek R1 32Bを,実例と推論に基づく質問に対して評価する。
我々は105組の質問応答対のベンチマークを構築し、語彙メトリクス、意味的類似性、LLM-as-a-judgeスコアを用いて性能を評価する。
その結果,Gemma は意味的忠実度と LLM 評価の正確性に優れており,DeepSeek では語彙整合性がわずかに高いことが示された。
- 参考スコア(独自算出の注目度): 2.7949605071983683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown remarkable capabilities across various fields. However, their performance in technical domains such as telecommunications remains underexplored. This paper evaluates two open-source LLMs, Gemma 3 27B and DeepSeek R1 32B, on factual and reasoning-based questions derived from advanced wireless communications material. We construct a benchmark of 105 question-answer pairs and assess performance using lexical metrics, semantic similarity, and LLM-as-a-judge scoring. We also analyze consistency, judgment reliability, and hallucination through source attribution and score variance. Results show that Gemma excels in semantic fidelity and LLM-rated correctness, while DeepSeek demonstrates slightly higher lexical consistency. Additional findings highlight current limitations in telecom applications and the need for domain-adapted models to support trustworthy Artificial Intelligence (AI) assistants in engineering.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な分野において顕著な能力を示している。
しかし、電気通信などの技術分野における業績は未定である。
本稿では,先進的な無線通信材料から得られた実測および推論に基づく質問に対して,Gemma 3 27B と DeepSeek R1 32B の2つのオープンソース LLM を評価する。
我々は105組の質問応答対のベンチマークを構築し、語彙メトリクス、意味的類似性、LLM-as-a-judgeスコアを用いて性能を評価する。
また、ソース属性とスコア分散による一貫性、判断信頼性、幻覚も分析する。
その結果,Gemma は意味的忠実度と LLM 評価の正確性に優れており,DeepSeek では語彙整合性がわずかに高いことが示された。
さらなる発見は、テレコムアプリケーションにおける現在の制限と、エンジニアリングにおける信頼できる人工知能(AI)アシスタントをサポートするためのドメイン適応モデルの必要性を強調している。
関連論文リスト
- Towards Transparent AI: A Survey on Explainable Language Models [22.70051215800476]
言語モデル(LM)は、自然言語処理を著しく進歩させ、様々な領域で顕著な進歩を可能にした。
透明性の欠如は、高い領域の採用において特に問題となる。
XAI法は非LMに対してよく研究されているが、LMに適用した場合、多くの制限に直面している。
論文 参考訳(メタデータ) (2025-09-25T21:47:39Z) - Evaluating Large Language Models (LLMs) in Financial NLP: A Comparative Study on Financial Report Analysis [0.0]
大規模言語モデル(LLM)は、さまざまな金融自然言語処理(FinNLP)タスクで顕著な機能を示している。
本研究は,5つのLLM,GPT,Claude,Perplexity,Gemini,DeepSeekの総合的な比較評価を行う。
論文 参考訳(メタデータ) (2025-07-24T20:10:27Z) - Evaluating open-source Large Language Models for automated fact-checking [0.13499500088995461]
大規模言語モデル(LLM)は、自動ファクトチェックの潜在的なツールとして登場した。
本研究は,異なるレベルの文脈情報を用いてクレームを評価する能力に焦点をあてる。
論文 参考訳(メタデータ) (2025-03-07T16:45:33Z) - Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Linguistic Intelligence in Large Language Models for Telecommunications [5.06945923921948]
自然言語処理(NLP)分野において,Large Language Models (LLMs) が大きな進歩を遂げている。
本研究は,電気通信分野におけるLLMの知識と理解能力を評価することを目的とする。
評価の結果,ゼロショットLLMは現状の細調整モデルに匹敵する性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-02-24T14:01:07Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。