論文の概要: HammerBench: Fine-Grained Function-Calling Evaluation in Real Mobile Device Scenarios
- arxiv url: http://arxiv.org/abs/2412.16516v1
- Date: Sat, 21 Dec 2024 07:33:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:59:54.871620
- Title: HammerBench: Fine-Grained Function-Calling Evaluation in Real Mobile Device Scenarios
- Title(参考訳): HammerBench: 実機シナリオにおけるファイングラインド機能ケーリング評価
- Authors: Jun Wang, Jiamu Zhou, Muning Wen, Xiaoyun Mo, Haoyu Zhang, Qiqiang Lin, Cheng Jin, Xihuai Wang, Weinan Zhang, Qiuying Peng, Jun Wang,
- Abstract要約: HammerBenchは、大規模な言語モデル(LLM)の関数呼び出し能力を人間とLLMの相互作用においてより効果的に評価するために設計されたベンチマークフレームワークである。
我々は,不完全な指示,多様な質問・回答の軌跡,意図/議論のシフト,代名詞による外部個人情報の利用など,モバイルデバイス上でのさまざまな現実的なユーザシナリオをモデル化する。
会話を関数呼び出しスナップショットに分解し、各ターンのきめ細かい評価を可能にする。
- 参考スコア(独自算出の注目度): 31.43638572775755
- License:
- Abstract: Evaluating the capabilities of large language models (LLMs) in human-LLM interactions remains challenging due to the inherent complexity and openness of dialogue processes. This paper introduces HammerBench, a novel benchmarking framework designed to assess the function-calling ability of LLMs more effectively in such interactions. We model a wide range of real-world user scenarios on mobile devices, encompassing imperfect instructions, diverse question-answer trajectories, intent/argument shifts, and the use of external individual information through pronouns. To construct the corresponding datasets, we propose a comprehensive pipeline that involves LLM-generated data and multiple rounds of human validation, ensuring high data quality. Additionally, we decompose the conversations into function-calling snapshots, enabling a fine-grained evaluation of each turn. We evaluate several popular LLMs using HammerBench and highlight different performance aspects. Our empirical findings reveal that errors in parameter naming constitute the primary factor behind conversation failures across different data types.
- Abstract(参考訳): ヒトとLLMの相互作用における大規模言語モデル(LLM)の能力を評価することは、対話プロセスの複雑さと開放性のために依然として困難である。
本稿では,LLMの関数呼び出し能力をより効果的に評価するための新しいベンチマークフレームワークHammerBenchを紹介する。
我々は,不完全な指示,多様な質問・回答の軌跡,意図/議論のシフト,代名詞による外部個人情報の利用など,モバイルデバイス上でのさまざまな現実的なユーザシナリオをモデル化する。
対応するデータセットを構築するために,LLM生成データと複数ラウンドの人間検証を含む包括的パイプラインを提案し,高いデータ品質を確保する。
さらに、会話を関数呼び出しスナップショットに分解し、各ターンのきめ細かい評価を可能にする。
我々はHammerBenchを使っていくつかの人気のあるLCMを評価し、異なる性能面を強調した。
実験により,パラメータの命名における誤りが,複数のデータ型にまたがる会話の失敗の背後にある主要な要因であることが判明した。
関連論文リスト
- Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T15:47:47Z) - FB-Bench: A Fine-Grained Multi-Task Benchmark for Evaluating LLMs' Responsiveness to Human Feedback [33.532239489610056]
FB-Benchは、中国語の実際の使用シナリオ下での人間のフィードバックに対する大規模言語モデルの応答性を評価するために設計されたベンチマークである。
我々は,多種多様なLLMを広範囲に評価し,異なる相互作用シナリオにおける性能の顕著な変動を明らかにした。
我々の研究結果は、現在のモデルの強みと限界の両方を強調し、将来の研究に価値ある洞察と方向性を提供する。
論文 参考訳(メタデータ) (2024-10-12T07:40:01Z) - Hammer: Robust Function-Calling for On-Device Language Models via Function Masking [26.495781685810044]
Hammerはデバイス上での関数呼び出し用に特別に設計されたファンデーションモデルの新しいファミリーである。
我々の経験的評価は、ハマーがより大きなモデルを上回るだけでなく、様々なベンチマークで堅牢な一般化を示すことを示している。
論文 参考訳(メタデータ) (2024-10-06T18:57:46Z) - RETAIN: Interactive Tool for Regression Testing Guided LLM Migration [8.378294455013284]
RETAIN(Regression Testing Guided LLM migrAtIoN)は、LLMマイグレーションにおける回帰テスト用に明示的に設計されたツールである。
自動評価と経験的ユーザスタディにより、RETAINは手動による評価と比較して、参加者が2倍のエラーを識別し、75%以上のプロンプトで実験し、与えられた時間枠で12%高いスコアを得ることができた。
論文 参考訳(メタデータ) (2024-09-05T22:22:57Z) - Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - Revisit Input Perturbation Problems for LLMs: A Unified Robustness
Evaluation Framework for Noisy Slot Filling Task [18.623619585980688]
本研究では,大言語モデルの対話理解能力を評価するために,スロット充足タスクに基づく統一ロバストネス評価フレームワークを提案する。
具体的には,5種類の単一摂動と4種類の混合摂動データを含む入力摂動評価データセットであるノイズLLMを構築した。
本研究の目的は,LLMの様々なロバスト性評価手法が実世界の雑音のシナリオでどの程度機能するかを評価することである。
論文 参考訳(メタデータ) (2023-10-10T10:22:05Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。