論文の概要: End-to-End Chatbot Evaluation with Adaptive Reasoning and Uncertainty Filtering
- arxiv url: http://arxiv.org/abs/2603.10570v1
- Date: Wed, 11 Mar 2026 09:25:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.871407
- Title: End-to-End Chatbot Evaluation with Adaptive Reasoning and Uncertainty Filtering
- Title(参考訳): 適応推論と不確かさフィルタリングによるエンドツーエンドチャットボットの評価
- Authors: Nhi Dang, Tung Le, Huy Tien Nguyen,
- Abstract要約: 大規模言語モデル(LLM)と検索拡張生成を組み合わせることで、ドメイン固有のチャットボットのデプロイが可能になったが、これらのシステムはサポートされていない、あるいは誤った回答を生成する傾向にある。
本研究では,人的労力を大幅に削減するエンド・ツー・エンド自動評価器を提案する。
本システムでは,基礎となる知識ベースから直接Q&Aペアを生成し,LLMを用いて参照応答に対する応答を判定し,不確実な事例を強調するために信頼度に基づくフィルタリングを適用する。
- 参考スコア(独自算出の注目度): 3.2434811678562685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) combined with retrieval augmented generation have enabled the deployment of domain-specific chatbots, but these systems remain prone to generating unsupported or incorrect answers. Reliable evaluation is therefore critical, yet manual review is costly and existing frameworks often depend on curated test sets and static metrics, limiting scalability. We propose an end-to-end automatic evaluator designed to substantially reduce human effort. Our system generates Q\&A pairs directly from the underlying knowledge base, uses LLMs to judge chatbot responses against reference answers, and applies confidence-based filtering to highlight uncertain cases. Applied to a Vietnamese news dataset, the evaluator achieves high agreement with human judgments while significantly lowering review overhead. The framework is modular and language-agnostic, making it readily adaptable to diverse domains. This work introduces a practical, scalable solution for evaluating chatbots with minimal reliance on manual intervention.
- Abstract(参考訳): 大規模言語モデル(LLM)と検索拡張生成を組み合わせることで、ドメイン固有のチャットボットのデプロイが可能になったが、これらのシステムはサポートされていない、あるいは誤った回答を生成する傾向にある。
そのため、信頼性評価は重要であるが、手作業によるレビューはコストがかかり、既存のフレームワークは、しばしばキュレートされたテストセットと静的メトリクスに依存し、スケーラビリティを制限します。
本研究では,人的労力を大幅に削減するエンド・ツー・エンド自動評価器を提案する。
本システムは,基礎となる知識ベースから直接Q\&Aペアを生成し,LLMを用いて参照応答に対するチャットボット応答を判定し,信頼度に基づくフィルタリングを用いて不確実な事例をハイライトする。
ベトナムのニュースデータセットに適用すると、評価者は人間の判断と高い一致を達成し、レビューのオーバーヘッドを大幅に下げる。
このフレームワークはモジュール式で言語に依存しないため、多様なドメインに容易に適応できる。
この作業は、手作業による介入を最小限に抑えて、チャットボットを評価するための実用的でスケーラブルなソリューションを導入している。
関連論文リスト
- Automated Benchmark Generation from Domain Guidelines Informed by Bloom's Taxonomy [28.293009223912602]
オープンエンド質問応答(英語: Open-ended Question answering, QA)は、モデルが事実的リコールを超えた文脈的推論を行う能力を評価する。
この課題は、知識が手続き的であり、専門的な判断が下されている、実践ベースの領域で特に深刻である。
ブルームの分類学から得られた専門家認可ガイドラインから自動ベンチマーク生成のためのフレームワークを紹介する。
論文 参考訳(メタデータ) (2026-01-28T05:01:11Z) - Benchmarking Contextual Understanding for In-Car Conversational Systems [0.9437812993238097]
In-car Conversational Question Answering (ConvQA) システムは,シームレスな音声対話を実現することでユーザエクスペリエンスを著しく向上させる。
本稿では,Large Language Models (LLMs) と高度なプロンプト技術およびエージェントベース手法を用いて,ConvQAシステム応答がユーザの発話に適合する程度を評価する。
論文 参考訳(メタデータ) (2025-12-12T21:15:49Z) - Reliable and Efficient Amortized Model-based Evaluation [57.6469531082784]
幅広いベンチマークの平均スコアは、実際に言語モデルを使用することをガイドするシグナルを提供する。
コストを下げるための一般的な試みは、ベンチマークのサブセットの平均スコアを計算することである。
このアプローチは、平均スコアがベンチマークサブセットの質問の難しさと合わさったため、信頼性の低いLM性能をしばしば引き起こす。
我々は、その内容から質問難度を予測するモデルを訓練し、信頼性のある測定をコストのごく一部で行えるようにした。
論文 参考訳(メタデータ) (2025-03-17T16:15:02Z) - Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。
BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。
本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文 参考訳(メタデータ) (2024-08-17T16:01:45Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Approximating Online Human Evaluation of Social Chatbots with Prompting [11.657633779338724]
既存の評価指標は、オフラインユーザ評価の自動化と、事前計算したダイアログの人的判断の近似を目的としている。
GPTファミリーの大規模言語モデル(LLM)を利用したオンライン人間評価の近似手法を提案する。
Prompting (DEP) に基づく新しいダイアログシステム評価フレームワークを導入し,完全な自動評価パイプラインを実現する。
論文 参考訳(メタデータ) (2023-04-11T14:45:01Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。