論文の概要: Dynamic benchmarking framework for LLM-based conversational data capture
- arxiv url: http://arxiv.org/abs/2502.04349v1
- Date: Tue, 04 Feb 2025 15:47:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:58:36.032979
- Title: Dynamic benchmarking framework for LLM-based conversational data capture
- Title(参考訳): LLMに基づく会話データキャプチャのための動的ベンチマークフレームワーク
- Authors: Pietro Alessandro Aluffi, Patrick Zietkiewicz, Marya Bazzi, Matt Arderne, Vladimirs Murevics,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The rapid evolution of large language models (LLMs) has transformed conversational agents, enabling complex human-machine interactions. However, evaluation frameworks often focus on single tasks, failing to capture the dynamic nature of multi-turn dialogues. This paper introduces a dynamic benchmarking framework to assess LLM-based conversational agents through interactions with synthetic users. The framework integrates generative agent simulation to evaluate performance on key dimensions: information extraction, context awareness, and adaptive engagement. By simulating various aspects of user behavior, our work provides a scalable, automated, and flexible benchmarking approach. Experimental evaluation - within a loan application use case - demonstrates the framework's effectiveness under one-shot and few-shot extraction conditions. Results show that adaptive strategies improve data extraction accuracy, especially when handling ambiguous responses. Future work will extend its applicability to broader domains and incorporate additional metrics (e.g., conversational coherence, user engagement). This study contributes a structured, scalable approach to evaluating LLM-based conversational agents, facilitating real-world deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進化は、対話エージェントを変換し、複雑な人間と機械の相互作用を可能にした。
しかし、評価フレームワークは単一のタスクに重点を置いており、マルチターン対話の動的な性質を捉えていない。
本稿では,LLMに基づく対話エージェントを合成ユーザとのインタラクションにより評価する動的ベンチマークフレームワークを提案する。
このフレームワークは、生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要な次元のパフォーマンスを評価する。
ユーザの振る舞いのさまざまな側面をシミュレートすることで、当社の作業はスケーラブルで自動化され、フレキシブルなベンチマークアプローチを提供します。
ローンのアプリケーション・ユース・ケースでの実験的な評価は、一発および数発の抽出条件下でのフレームワークの有効性を示す。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
今後の作業は、より広範なドメインに適用性を拡張し、追加のメトリクス(会話の一貫性、ユーザエンゲージメントなど)を組み込む予定だ。
本研究は,LLMに基づく対話エージェントの評価に,構造化されたスケーラブルなアプローチを提供し,実環境への展開を容易にする。
関連論文リスト
- HammerBench: Fine-Grained Function-Calling Evaluation in Real Mobile Device Scenarios [31.43638572775755]
HammerBenchは、実世界のマルチターン対話におけるモバイルアシスタント機能呼び出し機能を評価するための新しいフレームワークである。
実験の結果、異なるタイプのパラメータ名エラーが、異なる相互作用シナリオにおける重大な障害の原因であることを明らかにした。
論文 参考訳(メタデータ) (2024-12-21T07:33:55Z) - Can foundation models actively gather information in interactive environments to test hypotheses? [56.651636971591536]
隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。
自己スループットや推論時間の増加といったアプローチが情報収集効率を向上させるかどうかを検討する。
論文 参考訳(メタデータ) (2024-12-09T12:27:21Z) - LLM-assisted Explicit and Implicit Multi-interest Learning Framework for Sequential Recommendation [50.98046887582194]
本研究では,ユーザの興味を2つのレベル – 行動と意味論 – でモデル化する,明示的で暗黙的な多目的学習フレームワークを提案する。
提案するEIMFフレームワークは,小型モデルとLLMを効果的に組み合わせ,多目的モデリングの精度を向上させる。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - Revisiting Benchmark and Assessment: An Agent-based Exploratory Dynamic Evaluation Framework for LLMs [29.72874725703848]
従来のQAベンチマークを、より柔軟な戦略基準のフォーマットに拡張するBenchmark+と、インタラクションプロセスを強化するAccess+という2つの主要な概念を紹介します。
検索強化生成と強化学習を用いてこれらの概念を実装するエージェントベースの評価フレームワークであるTestAgentを提案する。
TestAgentは、さまざまな垂直ドメインシナリオにわたる動的ベンチマークの自動生成と詳細な評価を可能にする。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - Beyond Prompts: Dynamic Conversational Benchmarking of Large Language Models [0.0]
本稿では,対話エージェントを対象とした動的ベンチマークシステムを提案する。
タスクをインターリーブするために定期的にコンテキストスイッチを行い、エージェントの長期記憶、継続的な学習、情報統合機能を評価する現実的なテストシナリオを構築します。
論文 参考訳(メタデータ) (2024-09-30T12:01:29Z) - RAD-Bench: Evaluating Large Language Models Capabilities in Retrieval Augmented Dialogues [8.036117602566074]
RAD-Benchは、検索後のマルチターン対話における大規模言語モデルの能力を評価するために設計されたベンチマークである。
また, LLM の評価結果から, モデルの性能が劣化し, 追加の条件や制約が適用されることが判明した。
論文 参考訳(メタデータ) (2024-09-19T08:26:45Z) - Reliable LLM-based User Simulator for Task-Oriented Dialogue Systems [2.788542465279969]
本稿では,ドメイン対応ユーザシミュレータDAUSを紹介する。
タスク指向対話の実例について,DAUSを微調整する。
2つの関連するベンチマークの結果は、ユーザ目標達成の点で大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-20T20:57:47Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。