論文の概要: CONFETTI: Conversational Function-Calling Evaluation Through Turn-Level Interactions
- arxiv url: http://arxiv.org/abs/2506.01859v1
- Date: Mon, 02 Jun 2025 16:48:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.614848
- Title: CONFETTI: Conversational Function-Calling Evaluation Through Turn-Level Interactions
- Title(参考訳): CONFETTI:ターンレベルインタラクションによる会話機能ケア評価
- Authors: Tamer Alkhouli, Katerina Margatina, James Gung, Raphael Shu, Claudia Zaghi, Monica Sunkara, Yi Zhang,
- Abstract要約: 大規模言語モデル(LLM)の機能呼び出し機能と応答品質を評価するための対話型ベンチマークを提案する。
CONFETTIはこのギャップを109の人間シミュレーションによる会話を通じて解決し、313のユーザターンと86のAPIをカバーする。
我々は、一連の最先端のLCMを評価し、利用可能なAPIの数、会話の長さ、連鎖関数呼び出しについて、それらの性能を分析した。
- 参考スコア(独自算出の注目度): 13.550975153842632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Conversational Function-Calling Evaluation Through Turn-Level Interactions (CONFETTI), a conversational benchmark1 designed to evaluate the function-calling capabilities and response quality of large language models (LLMs). Current benchmarks lack comprehensive assessment of LLMs in complex conversational scenarios. CONFETTI addresses this gap through 109 human-simulated conversations, comprising 313 user turns and covering 86 APIs. These conversations explicitly target various conversational complexities, such as follow-ups, goal correction and switching, ambiguous and implicit goals. We perform off-policy turn-level evaluation using this benchmark targeting function-calling. Our benchmark also incorporates dialog act annotations to assess agent responses. We evaluate a series of state-of-the-art LLMs and analyze their performance with respect to the number of available APIs, conversation lengths, and chained function calling. Our results reveal that while some models are able to handle long conversations, and leverage more than 20+ APIs successfully, other models struggle with longer context or when increasing the number of APIs. We also report that the performance on chained function-calls is severely limited across the models. Overall, the top performing models on CONFETTI are Nova Pro (40.01%), Claude Sonnet v3.5 (35.46%) and Llama 3.1 405B (33.19%) followed by command-r-plus (31.18%) and Mistral-Large-2407 (30.07%).
- Abstract(参考訳): 本稿では,大言語モデル(LLM)の関数呼び出し能力と応答品質を評価するために設計された対話型ベンチマークであるCONFETTI(Conversational Function-Calling Evaluation through Turn-Level Interactions)を紹介する。
現在のベンチマークでは、複雑な会話シナリオにおけるLLMの包括的な評価が欠如している。
CONFETTIはこのギャップを109の人間シミュレーションによる会話を通じて解決し、313のユーザターンと86のAPIをカバーする。
これらの会話は、フォローアップ、ゴールの修正と切り替え、曖昧で暗黙的なゴールなど、さまざまな会話の複雑さを明示的にターゲットとしている。
本ベンチマークでは,関数呼び出しをターゲットとしたオフポリティクスのターンレベル評価を行う。
我々のベンチマークでは、エージェント応答を評価するためにダイアログアクトアノテーションも組み込まれています。
我々は、一連の最先端のLCMを評価し、利用可能なAPIの数、会話の長さ、連鎖関数呼び出しについて、それらの性能を分析した。
我々の結果によると、いくつかのモデルは長い会話を処理でき、20以上のAPIをうまく活用できますが、他のモデルは長いコンテキストやAPIの数を増やすのに苦労しています。
また,連鎖関数呼び出しの性能がモデルによって著しく制限されていることも報告した。
CONFETTIの最高パフォーマンスモデルは、Nova Pro(40.01%)、Claude Sonnet v3.5(35.46%)、Llama 3.1 405B(33.19%)、コマンド-rプラス(31.18%)、Mistral-Large-2407(30.07%)である。
関連論文リスト
- ToolDial: Multi-turn Dialogue Generation Method for Tool-Augmented Language Models [1.82618237315022]
我々は,RapidAPIのAPIに基づいて,対話毎に平均8.95回転する11,111のマルチターン対話からなるデータセットであるToolDialをリリースした。
システムから必要な情報をAPIドキュメントに基づいて要求する対話をシミュレートし,必要な情報の提供に失敗した場合に追加のAPIを求める。
我々は,正しい動作を予測し,対話履歴からAPI呼び出しの入力パラメータ値を抽出する言語モデル群を評価する。
論文 参考訳(メタデータ) (2025-03-01T17:23:51Z) - Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。
本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-21T20:29:02Z) - ACEBench: Who Wins the Match Point in Tool Usage? [68.54159348899891]
ACEBenchは、Large Language Models (LLMs)におけるツールの使用状況を評価するための包括的なベンチマークである。
データを評価方法論に基づく3つの主要なタイプに分類する。
これは、異なるデータタイプにわたるエラー原因をよりきめ細かい検査を提供する。
論文 参考訳(メタデータ) (2025-01-22T12:59:08Z) - HammerBench: Fine-Grained Function-Calling Evaluation in Real Mobile Device Scenarios [31.43638572775755]
HammerBenchは、実世界のマルチターン対話におけるモバイルアシスタント機能呼び出し機能を評価するための新しいフレームワークである。
実験の結果、異なるタイプのパラメータ名エラーが、異なる相互作用シナリオにおける重大な障害の原因であることを明らかにした。
論文 参考訳(メタデータ) (2024-12-21T07:33:55Z) - Better Zero-Shot Reasoning with Role-Play Prompting [10.90357246745529]
ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。
これは、大きな言語モデルの推論能力を増強する可能性を強調している。
論文 参考訳(メタデータ) (2023-08-15T11:08:30Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - TicketTalk: Toward human-level performance with end-to-end,
transaction-based dialog systems [10.659519248703273]
トランザクションベースの対話システムに対するデータ駆動型エンドツーエンドアプローチを提案する。
本システムは,音声応答品質と実感的グラウンドリング精度の観点から,ほぼ人間レベルで動作することを示す。
我々は23,789の注釈付き会話を含む映画チケットダイアログデータセットであるTicketTalkを紹介した。
論文 参考訳(メタデータ) (2020-12-23T02:43:37Z) - CoCo: Controllable Counterfactuals for Evaluating Dialogue State
Trackers [92.5628632009802]
本稿では,このギャップを橋渡しし,新たなシナリオにおける対話状態追跡(DST)モデルを評価するための制御可能な対策(CoCo)を提案する。
CoCoは、2つのステップで新しい会話シナリオを生成する: (i) スロットをドロップして追加し、スロット値を置き換えて、 (ii) (i) で条件付きで対話フローと整合する対実会話生成。
人間による評価では、COCO生成された会話は95%以上の精度でユーザー目標を完璧に反映し、元の会話と同じくらい人間らしくなっている。
論文 参考訳(メタデータ) (2020-10-24T09:39:35Z) - Large Scale Multi-Actor Generative Dialog Modeling [22.286624163849893]
本稿では,俳優のペルソナにおける複数回会話を確率的にモデル化するために,過去の参照会話を条件づけた言語モデルである生成会話制御モデルを紹介する。
モデルのサイズを117Mから8.3Bに拡大すると、1.7Mの会話で23.14から13.14に改善される。
過去の会話を条件付きでモデル化することで、自動評価において難易度が0.47向上することがわかった。
論文 参考訳(メタデータ) (2020-05-13T01:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。