論文の概要: PEFT of SLM for Telecommunications Customer Support: A Comparative Study of LoRA Configurations with Energy Consumption Analysis
- arxiv url: http://arxiv.org/abs/2606.05176v1
- Date: Fri, 17 Apr 2026 09:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.628924
- Title: PEFT of SLM for Telecommunications Customer Support: A Comparative Study of LoRA Configurations with Energy Consumption Analysis
- Title(参考訳): 電気通信顧客支援のためのSLMのPEFT:LoRA構成とエネルギー消費分析の比較検討
- Authors: Lucas Tamic, Ilan Jaffeux-Cheniout, Xavier Marjou,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語の理解と生成において高い性能を示すが、通信顧客サポートにおけるドメイン固有の制約に対する評価と適応は依然として限られている。
本稿では,Qwen2.5-3Bに適用された低ランク適応(LoRA)を用いたパラメータ効率細調整(PEFT)の系統的研究を行い,ドメイン固有の対話アシスタントを構築する。
Gemini Geminiを動力とする生成パイプラインを通じて,1,560の異なる問題シナリオに対して約30,000のトレーニング例を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While large language models (LLMs) show strong performance in natural language understanding and generation, their evaluation and adaptation to domain-specific constraints in telecommunications customer support remain limited. In addition, data sovereignty, regulatory constraints, and the handling of sensitive customer and network information complicate the use of externally hosted foundation models in this domain. We present a systematic study of parameter-efficient fine-tuning (PEFT) using Low-Rank Adaptation (LoRA) applied to Qwen2.5-3B to build a domain-specific conversational assistant. We introduce a combinatorial synthetic data generation approach based on a glossary of 52 industry-specific terms, producing approximately 30,000 training examples across 1,560 distinct problem scenarios via a generative pipeline powered by Gemini 2.0 Flash. We evaluate 16 LoRA configurations by varying hyperparameters and target modules. Our evaluation extends beyond standard metrics by incorporating energy consumption analysis and qualitative assessment using an LLM-as-a-judge framework with GPT-5.2 and Claude 4.5 Sonnet. Results show a clear divergence between quantitative and qualitative performance: models achieving the lowest validation loss do not necessarily obtain the best human-aligned rankings. The best validation loss (0.5024) ranks only 6th-7th in qualitative evaluation, while the worst loss (0.6807) ranks first according to both judges. This work contributes (1) a combinatorial method for synthetic dataset construction, (2) insights into the impact of target module selection for LoRA injection, (3) evidence that validation loss alone is insufficient for selecting fine-tuning configurations in conversational AI, and (4) an energy-performance trade-off analysis for sustainable LLM deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語の理解と生成において高い性能を示すが、通信顧客サポートにおけるドメイン固有の制約に対する評価と適応は依然として限られている。
加えて、データ主権、規制の制約、機密性の高い顧客およびネットワーク情報の取り扱いは、このドメインで外部にホストされた基礎モデルの使用を複雑にします。
本稿では,Qwen2.5-3Bに適用された低ランク適応(LoRA)を用いたパラメータ効率細調整(PEFT)の系統的研究を行い,ドメイン固有の対話アシスタントを構築する。
我々は,52の業界固有用語に基づく組合せ合成データ生成手法を導入し,Gemini 2.0 Flashをベースとした生成パイプラインを通じて,1,560の異なる問題シナリオに対して約30,000のトレーニング例を生成する。
ハイパーパラメータとターゲットモジュールによる16のLORA構成を評価した。
我々は, GPT-5.2 と Claude 4.5 Sonnet を用いた LLM-as-a-judge フレームワークを用いて, エネルギー消費分析と定性評価を組み込むことにより, 標準指標を超えて評価を行った。
その結果、定量と定性的な性能の明確な相違が示され、最小のバリデーション損失を達成するモデルは、必ずしも最高のヒトのランクを得るとは限らない。
最高の検証損失(0.5024)は質的評価で6位-7位、最悪の損失(0.6807)は2人の審査員によって第1位である。
本研究は,(1)合成データセット構築のための組合せ手法,(2)LoRAインジェクションのターゲットモジュール選択の影響に関する知見,(3)会話型AIにおける微調整構成の選択にバリデーションの損失だけでは不十分であるという証拠,(4)持続可能なLCM展開のためのエネルギー効率のトレードオフ分析に寄与する。
関連論文リスト
- Domain-Adapted Small Language Models with Hybrid Post-Processing: Achieving Cost-Efficient, Low-Latency Multi-Label Structured Prediction via LoRA Fine-Tuning on Scarce Data [6.3745740668603075]
ドメイン固有の構造化評価タスクのための大規模言語モデル(LLM)は、遅延、コスト、データプライバシオーバーヘッドを禁止します。
本稿では,219個のキュレートされた例に対して,小さな言語モデルを微調整し,決定論的ルールベースの後処理層と結合するハイブリッドフレームワークを提案する。
本システムでは,53件の未確認原稿のブラインド評価において,100%の構造的妥当性,83.0%の人間検証精度,および最重要分類分野における100%の精度を実現している。
論文 参考訳(メタデータ) (2026-06-04T07:09:37Z) - Authority Inversion in LLM-Mediated Ubiquitous Systems: When Models Trust Users Over Sensors [6.414826816896125]
センサ計測とユーザ主張の衝突が未検討のままである場合に,大規模言語モデルがどのように権威を暗黙的に割り当てるかを検討する。
数値センサデータが解答関連モデル方向への統合に失敗し、自然言語によるクレームが最終決定を支配できることがわかった。
提案するGeometric Authority (GAC) は,不適切なユーザ権限を抑えるための推論時間層レベルの介入である。
論文 参考訳(メタデータ) (2026-04-28T04:59:03Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Accuracy and Efficiency Trade-Offs in LLM-Based Malware Detection and Explanation: A Comparative Study of Parameter Tuning vs. Full Fine-Tuning [0.0]
Low-Rank Adaptation (LoRA) fine-tuned Large Language Models (LLMs) は、人間の解釈可能な決定とマルウェア分類の説明を生成する際に、完全に微調整されたモデルの性能を近似することができる。
LoRAは、解釈可能性とリソース効率の現実的なバランスを提供し、説明品質を犠牲にすることなく、リソースに制約のある環境へのデプロイを可能にする。
論文 参考訳(メタデータ) (2025-11-24T19:37:13Z) - A Fuzzy Logic-Based Framework for Explainable Machine Learning in Big Data Analytics [0.0]
本稿では,2型ファジィ集合,粒度計算,クラスタリングを組み合わせて,ビッグデータ環境における説明可能性と公平性を高める新しいフレームワークを提案する。
UCI Air Qualityデータセットに適用した場合、このフレームワークはノイズの多いセンサデータの不確実性を効果的に管理し、言語規則を作成し、シルエットスコアとエントロピーを用いて公平さを評価する。
論文 参考訳(メタデータ) (2025-09-29T18:02:31Z) - LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [75.72672339168092]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。