論文の概要: A Benchmark Dataset and Evaluation Framework for Vietnamese Large Language Models in Customer Support
- arxiv url: http://arxiv.org/abs/2507.22542v1
- Date: Wed, 30 Jul 2025 10:14:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.139765
- Title: A Benchmark Dataset and Evaluation Framework for Vietnamese Large Language Models in Customer Support
- Title(参考訳): ベトナムの大規模言語モデルに対する顧客支援のためのベンチマークデータセットと評価フレームワーク
- Authors: Long S. T. Nguyen, Truong P. Hua, Thanh M. Nguyen, Toan Q. Pham, Nam K. Ngo, An X. Nguyen, Nghi D. M. Pham, Nghia H. Nguyen, Tho T. Quan,
- Abstract要約: 大言語モデル (LLM) は質問応答システム (QA) に欠かせないものとなっている。
大言語モデル (LLM) は質問応答システム (QA) に欠かせないものとなっている。
ベトナムのLLM(ViLLMs)の出現は、その正確性、効率、プライバシのメリットに対する実践的な選択として、軽量なオープンソースモデルを強調している。
- 参考スコア(独自算出の注目度): 0.02854665759452799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid growth of Artificial Intelligence, Large Language Models (LLMs) have become essential for Question Answering (QA) systems, improving efficiency and reducing human workload in customer service. The emergence of Vietnamese LLMs (ViLLMs) highlights lightweight open-source models as a practical choice for their accuracy, efficiency, and privacy benefits. However, domain-specific evaluations remain limited, and the absence of benchmark datasets reflecting real customer interactions makes it difficult for enterprises to select suitable models for support applications. To address this gap, we introduce the Customer Support Conversations Dataset (CSConDa), a curated benchmark of over 9,000 QA pairs drawn from real interactions with human advisors at a large Vietnamese software company. Covering diverse topics such as pricing, product availability, and technical troubleshooting, CSConDa provides a representative basis for evaluating ViLLMs in practical scenarios. We further present a comprehensive evaluation framework, benchmarking 11 lightweight open-source ViLLMs on CSConDa with both automatic metrics and syntactic analysis to reveal model strengths, weaknesses, and linguistic patterns. This study offers insights into model behavior, explains performance differences, and identifies key areas for improvement, supporting the development of next-generation ViLLMs. By establishing a robust benchmark and systematic evaluation, our work enables informed model selection for customer service QA and advances research on Vietnamese LLMs. The dataset is publicly available at https://huggingface.co/datasets/ura-hcmut/Vietnamese-Customer-Support-QA.
- Abstract(参考訳): 人工知能の急速な発展に伴い、大規模言語モデル(LLMs)は質問回答システム(QA)システムにおいて欠かせないものとなり、効率を改善し、カスタマーサービスの人的負荷を減らす。
ベトナムのLLM(ViLLMs)の出現は、その正確性、効率、プライバシのメリットに対する実践的な選択として、軽量なオープンソースモデルを強調している。
しかし、ドメイン固有の評価は限定的であり、実際の顧客インタラクションを反映したベンチマークデータセットがないため、企業がサポートアプリケーションに適したモデルを選択するのは困難である。
このギャップに対処するため、ベトナムの大手ソフトウェア企業において、人間アドバイザーとの実際の対話から引き出された9000以上のQAペアのベンチマークであるCSConDa(Customer Support Conversations Dataset)を紹介した。
価格、製品可用性、技術的トラブルシューティングなどのさまざまなトピックをカバーするCSConDaは、現実的なシナリオでViLLMを評価するための代表的な基盤を提供する。
さらに、CSConDa上で11個の軽量オープンソースViLLMをベンチマークして、モデル強度、弱点、言語パターンを明らかにするための総合的な評価フレームワークを提案する。
本研究は、モデル行動の洞察を与え、性能の違いを説明し、改善の鍵となる領域を特定し、次世代のViLLMの開発を支援する。
堅牢なベンチマークと体系的な評価を確立することで、顧客サービスQAのインフォームドモデル選択を可能にし、ベトナムのLLMの研究を進展させる。
データセットはhttps://huggingface.co/datasets/ura-hcmut/Vietnamese-Customer-Support-QAで公開されている。
関連論文リスト
- A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。
まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。
第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。
第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文 参考訳(メタデータ) (2024-12-24T12:54:19Z) - A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - Automating Customer Needs Analysis: A Comparative Study of Large Language Models in the Travel Industry [2.4244694855867275]
大規模言語モデル(LLM)は、大量のテキストデータから貴重な洞察を抽出する強力なツールとして登場した。
本研究では,TripAdvisor と Reddit の投稿から旅行客のニーズを抽出するための LLM の比較分析を行った。
特にMistral 7Bは,大規模クローズドモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-27T18:28:10Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。