Fugu-MT 論文翻訳(概要): Enhancing Confidence Estimation in Telco LLMs via Twin-Pass CoT-Ensembling

論文の概要: Enhancing Confidence Estimation in Telco LLMs via Twin-Pass CoT-Ensembling

arxiv url: http://arxiv.org/abs/2604.13271v1
Date: Tue, 14 Apr 2026 20:03:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-16 20:38:32.280098
Title: Enhancing Confidence Estimation in Telco LLMs via Twin-Pass CoT-Ensembling
Title（参考訳）: ツインパスCoT組立によるテルコLLMの信頼度推定
Authors: Anton Saenko, Pranshav Gajjar, Abiodun Ganiyu, Vijay K. Shah,
Abstract要約: 大規模言語モデル(LLM)は、複雑な通信タスクにますます適用されている。 LLMが生み出す信頼スコアは、しばしばバイアスを受け、信頼できないものであり、しばしば体系的な過信を示す。我々は,信頼度推定を改善するための新しいCoT(Twin-Pass Chain of Thought)-Ensembling法を提案する。
参考スコア（独自算出の注目度）: 1.8332654441845688
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are increasingly applied to complex telecommunications tasks, including 3GPP specification analysis and O-RAN network troubleshooting. However, a critical limitation remains: LLM-generated confidence scores are often biased and unreliable, frequently exhibiting systematic overconfidence. This lack of trustworthy self-assessment makes it difficult to verify model outputs and safely rely on them in practice. In this paper, we study confidence calibration in telecom-domain LLMs using the representative Gemma-3 model family (4B, 12B, and 27B parameters), evaluated on TeleQnA, ORANBench, and srsRANBench. We show that standard single-pass, verbalized confidence estimates fail to reflect true correctness, often assigning high confidence to incorrect predictions. To address this, we propose a novel Twin-Pass Chain of Thought (CoT)-Ensembling methodology for improving confidence estimation by leveraging multiple independent reasoning evaluations and aggregating their assessments into a calibrated confidence score. Our approach reduces Expected Calibration Error (ECE) by up to 88% across benchmarks, significantly improving the reliability of model self-assessment. These results highlight the limitations of current confidence estimation practices and demonstrate a practical path toward more trustworthy evaluation of LLM outputs in telecommunications.
Abstract（参考訳）: 大規模言語モデル(LLM)は、3GPP仕様分析やO-RANネットワークトラブルシューティングなど、複雑な通信タスクにますます適用されている。 LLMが生成する信頼スコアは、しばしばバイアスを受け、信頼できない、しばしば体系的な過信を示す。この信頼に値する自己評価の欠如は、モデル出力の検証を難しくし、実際にそれらに安全に依存する。本稿では,TeleQnA,ORANBench,srsRANBenchを用いて,代表的なGemma-3モデルファミリ(4B,12B,27Bパラメータ)を用いた通信領域LLMの信頼性校正について検討する。標準の単一パスの言語的信頼度推定は真の正しさを反映せず、しばしば誤った予測に高い信頼を割り当てていることを示す。そこで本研究では,複数の独立推論評価を活用し,その評価を校正された信頼スコアに集約することにより,信頼度評価を改善するための新しいTwin-Pass Chain of Thought (CoT)-Ensembling法を提案する。提案手法では,ベンチマーク毎に期待校正誤差(ECE)を最大88%削減し,モデル自己評価の信頼性を著しく向上する。これらの結果は、現在の信頼度推定手法の限界を強調し、電気通信におけるLCM出力の信頼性を高めるための実践的な道筋を示すものである。

関連論文リスト

BAS: A Decision-Theoretic Approach to Evaluating Large Language Model Confidence [22.382291859991472]
本稿では,大言語モデルが抑止力を考慮した意思決定を支援するかを評価するための決定論的指標である行動アライメントスコア(BAS)を紹介する。 BASは、明示的な回答または持続可能なユーティリティモデルから派生し、リスク閾値の連続体にわたって実現されたユーティリティを集約する。理論的には、真理信頼度推定は期待されるBASユーティリティを一意に最大化し、キャリブレーションと決定-最適行動のリンクを示す。
論文参考訳（メタデータ） (2026-04-03T17:44:32Z)
BrowseConf: Confidence-Guided Test-Time Scaling for Web Agents [58.05949210993854]
本研究では,長期にわたる行動の後,言語化された信頼度スコアを用いて,検索エージェントが自身の信頼を伝達できるかどうかを検討する。本研究では,信頼度スコアを用いて回答の質を判断し,信頼度レベルに達するまで再度試すテスト時間スケーリング(TTS)手法を提案する。
論文参考訳（メタデータ） (2025-10-27T15:58:51Z)
ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。 LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文参考訳（メタデータ） (2025-08-26T09:25:32Z)
Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文参考訳（メタデータ） (2025-08-16T13:29:35Z)
Overconfidence in LLM-as-a-Judge: Diagnosis and Confidence-Driven Solution [20.607071807794195]
大規模言語モデル(LLM)は自動化された判断として広く使われており、実際的な価値は正確さと信頼性の高いリスク認識の判断の両方に依存する。既存のアプローチは主に正確さに焦点を合わせ、よく校正された信頼の必要性を見越す。我々は、精度中心の評価から信頼性駆動型、リスク対応型LCM-as-a-Judgeシステムへの移行を提唱する。
論文参考訳（メタデータ） (2025-08-08T11:11:22Z)
SteerConf: Steering LLMs for Confidence Elicitation [11.872504642312705]
大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示すが、しばしば過剰な自信に悩まされる。本稿では,LCMの信頼性スコアを体系的に評価し,キャリブレーションと信頼性を向上させる新しいフレームワークであるSteerConfを提案する。
論文参考訳（メタデータ） (2025-03-04T18:40:49Z)
Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文参考訳（メタデータ） (2024-11-20T14:15:18Z)
Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文参考訳（メタデータ） (2024-03-15T02:38:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。