論文の概要: DICE-BENCH: Evaluating the Tool-Use Capabilities of Large Language Models in Multi-Round, Multi-Party Dialogues
- arxiv url: http://arxiv.org/abs/2506.22853v1
- Date: Sat, 28 Jun 2025 11:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.603544
- Title: DICE-BENCH: Evaluating the Tool-Use Capabilities of Large Language Models in Multi-Round, Multi-Party Dialogues
- Title(参考訳): DICE-BENCH:多言語多人数対話における大規模言語モデルのツール使用能力の評価
- Authors: Kyochul Jang, Donghyeon Lee, Kyusik Kim, Dongseok Heo, Taewhoo Lee, Woojeong Kim, Bongwon Suh,
- Abstract要約: 既存の関数呼び出しベンチマークはシングルターンインタラクションに重点を置いている。
本稿では,対話を通してツール関連情報の分散を評価する指標であるDICE-SCOREを紹介する。
DICE-BENCHは、ツールグラフを通じてデータセットを合成することで、実用的な関数呼び出しを構築するフレームワークである。
- 参考スコア(独自算出の注目度): 6.650725926332404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing function-calling benchmarks focus on single-turn interactions. However, they overlook the complexity of real-world scenarios. To quantify how existing benchmarks address practical applications, we introduce DICE-SCORE, a metric that evaluates the dispersion of tool-related information such as function name and parameter values throughout the dialogue. Analyzing existing benchmarks through DICE-SCORE reveals notably low scores, highlighting the need for more realistic scenarios. To address this gap, we present DICE-BENCH, a framework that constructs practical function-calling datasets by synthesizing conversations through a tool graph that maintains dependencies across rounds and a multi-agent system with distinct personas to enhance dialogue naturalness. The final dataset comprises 1,607 high-DICE-SCORE instances. Our experiments on 19 LLMs with DICE-BENCH show that significant advances are still required before such models can be deployed effectively in real-world settings. Our code and data are all publicly available: https://snuhcc.github.io/DICE-Bench/.
- Abstract(参考訳): 既存の関数呼び出しベンチマークはシングルターンインタラクションに重点を置いている。
しかし、現実のシナリオの複雑さを見落としている。
DICE-SCOREは,対話を通して関数名やパラメータ値などのツール関連情報の分散を評価する指標である。
DICE-SCOREによる既存のベンチマークの分析は、明らかに低いスコアを示し、より現実的なシナリオの必要性を強調している。
DICE-BENCHは,対話の自然性を高めるために,ラウンド間の依存関係を維持するツールグラフと,個別のペルソナを持つマルチエージェントシステムを通じて会話を合成することで,実用的な関数呼び出しデータセットを構築するフレームワークである。
最後のデータセットは1,607の高DICE-SCOREインスタンスで構成されている。
DICE-BENCHを用いた19のLLM実験では,実環境において,そのようなモデルが効果的に展開されるまでには,大きな進歩が必要であることが示された。
私たちのコードとデータは、すべて公開されています: https://snuhcc.github.io/DICE-Bench/。
関連論文リスト
- What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。
OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。
我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文 参考訳(メタデータ) (2025-06-10T15:59:38Z) - Evaluating and Enhancing Out-of-Domain Generalization of Task-Oriented Dialog Systems for Task Completion without Turn-level Dialog Annotations [2.453775887722866]
本研究は,大規模言語モデル(LLM)を自然言語ダイアログのみに微調整してToDタスクを実行できるかどうかを,このようなアノテーションを必要とせずに検討する。
ターンレベルのアノテーションを使わずに微調整されたモデルでは、一貫性のある適切な応答が生成される。
提案するZeroToDは,API呼び出し精度と全体的なタスク完了率を向上させるために,スキーマ拡張機構を組み込んだフレームワークである。
論文 参考訳(メタデータ) (2025-02-18T22:10:51Z) - HammerBench: Fine-Grained Function-Calling Evaluation in Real Mobile Device Scenarios [31.43638572775755]
HammerBenchは、実世界のマルチターン対話におけるモバイルアシスタント機能呼び出し機能を評価するための新しいフレームワークである。
実験の結果、異なるタイプのパラメータ名エラーが、異なる相互作用シナリオにおける重大な障害の原因であることを明らかにした。
論文 参考訳(メタデータ) (2024-12-21T07:33:55Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - InstructERC: Reforming Emotion Recognition in Conversation with Multi-task Retrieval-Augmented Large Language Models [9.611864685207056]
本稿では,識別的枠組みから大規模言語モデル(LLM)に基づく生成的枠組みへ,感情認識タスクを再構築するための新しいアプローチであるインストラクタCを提案する。
InstructERCは、3つの重要な貢献をしている:(1)モデルがマルチグラニュラリティ対話監視情報を明示的に統合するのに役立つ単純で効果的なテンプレートモジュール、(2)話者識別と感情予測タスクという2つの追加の感情アライメントタスクを導入し、会話における対話の役割の関係と将来の感情傾向を暗黙的にモデル化する。
論文 参考訳(メタデータ) (2023-09-21T09:22:07Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization [127.714919036388]
DIONYSUSは、任意の新しいドメインでの対話を要約するための訓練済みエンコーダデコーダモデルである。
実験の結果,DIONYSUSは6つのデータセット上で既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-20T06:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。