論文の概要: Can Small Language Models Handle Context-Summarized Multi-Turn Customer-Service QA? A Synthetic Data-Driven Comparative Evaluation
- arxiv url: http://arxiv.org/abs/2602.00665v1
- Date: Sat, 31 Jan 2026 11:27:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.324413
- Title: Can Small Language Models Handle Context-Summarized Multi-Turn Customer-Service QA? A Synthetic Data-Driven Comparative Evaluation
- Title(参考訳): 小言語モデルはコンテキスト要約型マルチトゥルンサービスQAを扱えるか? : 合成データ駆動比較評価
- Authors: Lakshan Cooray, Deshan Sumanathilaka, Pattigadapa Venkatesh Raju,
- Abstract要約: 小言語モデル(SLM)は、より効率的な大言語モデル(LLM)の代替を提供する。
本研究では、コンテキスト対応マルチターン顧客サービスQAのための命令調整型SLMについて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Customer-service question answering (QA) systems increasingly rely on conversational language understanding. While Large Language Models (LLMs) achieve strong performance, their high computational cost and deployment constraints limit practical use in resource-constrained environments. Small Language Models (SLMs) provide a more efficient alternative, yet their effectiveness for multi-turn customer-service QA remains underexplored, particularly in scenarios requiring dialogue continuity and contextual understanding. This study investigates instruction-tuned SLMs for context-summarized multi-turn customer-service QA, using a history summarization strategy to preserve essential conversational state. We also introduce a conversation stage-based qualitative analysis to evaluate model behavior across different phases of customer-service interactions. Nine instruction-tuned low-parameterized SLMs are evaluated against three commercial LLMs using lexical and semantic similarity metrics alongside qualitative assessments, including human evaluation and LLM-as-a-judge methods. Results show notable variation across SLMs, with some models demonstrating near-LLM performance, while others struggle to maintain dialogue continuity and contextual alignment. These findings highlight both the potential and current limitations of low-parameterized language models for real-world customer-service QA systems.
- Abstract(参考訳): 顧客サービス質問応答(QA)システムは、会話言語理解にますます依存している。
大規模言語モデル(LLM)は高い性能を達成するが、その高い計算コストとデプロイメントの制約により、リソース制約のある環境での実践的使用が制限される。
小言語モデル(SLM)は、より効率的な代替手段を提供するが、特に対話の継続性やコンテキスト理解を必要とするシナリオにおいて、マルチターンの顧客サービスQAの有効性は未検討のままである。
本研究は, 文脈対応型マルチターン顧客サービスQAのための教師調整型SLMについて, 基本会話状態を維持するために, 履歴要約戦略を用いて検討する。
また,対話段階に基づく質的分析を導入し,顧客とサービス間の相互作用の異なるフェーズにおけるモデル行動を評価する。
人的評価やLLM-as-a-judge法を含む定性評価と並行して語彙的・意味的類似度指標を用いて,9つの命令調整低パラメータ化SLMを3つの商用LCMに対して評価した。
結果は,SLM間で顕著な変動を示し,LLMに近い性能を示すモデルもあれば,対話継続性とコンテキストアライメントの維持に苦慮するモデルもある。
これらの結果は、現実世界のカスタマーサービスQAシステムにおける低パラメータ化言語モデルの可能性と現在の限界の両方を浮き彫りにしている。
関連論文リスト
- Assessing the Business Process Modeling Competences of Large Language Models [40.495149980011924]
大規模言語モデル(LLM)は、自然言語から直接ビジネスプロセスモデルと表記(BPMN)モデルを生成する可能性を大幅に拡大しました。
BEF4LLMは, 構文的品質, 実用的品質, 意味的品質, 妥当性の4点からなる新しい評価フレームワークである。
BEF4LLM を用いて,オープンソース LLM の包括的解析を行い,その性能を人体モデリングの専門家に対してベンチマークする。
論文 参考訳(メタデータ) (2026-01-29T14:34:20Z) - CARE-Bench: A Benchmark of Diverse Client Simulations Guided by Expert Principles for Evaluating LLMs in Psychological Counseling [44.86705916946909]
動的かつインタラクティブな自動ベンチマークである textbfCARE-Bench を導入する。
現実世界のカウンセリングケースから派生した多様なクライアントプロファイルに基づいて構築され、専門家のガイドラインに従ってシミュレートされる。
CARE-Benchは、確立された心理的尺度に基づく多次元のパフォーマンス評価を提供する。
論文 参考訳(メタデータ) (2025-11-12T15:19:44Z) - KnowMT-Bench: Benchmarking Knowledge-Intensive Long-Form Question Answering in Multi-Turn Dialogues [58.305425399644086]
MT-LFQA(Multi-Turn Long-Form Question Answering)は、知識集約ドメインにおけるLLM(Large Language Models)の重要な応用パラダイムである。
textbfKnowMT-Benchは、知識集約的な分野にわたるLLMのためのMT-LFQAを体系的に評価するために設計された、テキストファーストなベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T04:32:29Z) - Federated In-Context Learning: Iterative Refinement for Improved Answer Quality [62.72381208029899]
In-context Learning (ICL) では、入力に提供される例を活用することで、パラメータを変更することなく、言語モデルで応答を生成することができる。
我々は,反復的協調プロセスを通じてICLを強化する汎用フレームワークであるFederated In-Context Learning (Fed-ICL)を提案する。
Fed-ICLは、クライアントと中央サーバ間のマルチラウンドインタラクションを活用することで、応答を徐々に洗練し、モデルパラメータを送信することなく、応答品質を向上させる。
論文 参考訳(メタデータ) (2025-06-09T05:33:28Z) - MLLM-CL: Continual Learning for Multimodal Large Language Models [39.19456474036905]
ドメインと能力の連続学習を含む新しいベンチマークであるMLLM-CLを紹介する。
本稿では,パラメータ分離とMLLMに基づくルーティング機構による破滅的干渉を防止することを提案する。
我々のアプローチは、ドメイン固有の知識と機能的能力とを最小限の忘れ込みで統合することができ、既存の手法よりもはるかに優れています。
論文 参考訳(メタデータ) (2025-06-05T17:58:13Z) - MEDAL: A Framework for Benchmarking LLMs as Multilingual Open-Domain Dialogue Evaluators [10.105344895924164]
既存のメタ評価ベンチマークは静的で時代遅れであり、多言語カバレッジに欠けています。
我々は、より代表的で多様な評価ベンチマークをキュレートするための自動マルチエージェントフレームワークであるMEDALを紹介する。
MEDALを用いて、最先端の審査員が共感の欠如、常識の欠如、あるいは関連性などのニュアンスな問題を確実に検出できないことを明らかにする。
論文 参考訳(メタデータ) (2025-05-28T18:45:42Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - Leveraging LLMs for Dialogue Quality Measurement [27.046917937460798]
大規模言語モデル(LLM)は、NLPタスク全体で堅牢なゼロショットと少数ショットの機能を提供する。
モデルサイズ,文脈内例,選択手法などの操作要因を考察し,CoT推論とラベル抽出手法について検討する。
この結果から,適切な微調整と十分な推論能力を有するLCMを自動対話評価に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-06-25T06:19:47Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。