論文の概要: On the Robustness of Agentic Function Calling
- arxiv url: http://arxiv.org/abs/2504.00914v1
- Date: Tue, 01 Apr 2025 15:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:48.944524
- Title: On the Robustness of Agentic Function Calling
- Title(参考訳): エージェント関数呼び出しのロバスト性について
- Authors: Ella Rabinovich, Ateret Anaby-Tavor,
- Abstract要約: 大規模言語モデル(LLM)は、タスクのための特定のツールを呼び出すことができる機能呼び出し(FC)機能を備えた、自律的なエージェントとしてますます機能している。
本稿では,2つの重要な領域においてFCのロバスト性を評価するベンチマークを紹介する。
- 参考スコア(独自算出の注目度): 5.0243930429558885
- License:
- Abstract: Large Language Models (LLMs) are increasingly acting as autonomous agents, with function calling (FC) capabilities enabling them to invoke specific tools for tasks. While prior research has primarily focused on improving FC accuracy, little attention has been given to the robustness of these agents to perturbations in their input. We introduce a benchmark assessing FC robustness in two key areas: resilience to naturalistic query variations, and stability in function calling when the toolkit expands with semantically related tools. Evaluating best-performing FC models on a carefully expanded subset of the Berkeley function calling leaderboard (BFCL), we identify critical weaknesses in existing evaluation methodologies, and highlight areas for improvement in real-world agentic deployments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、タスクのための特定のツールを呼び出すことができる機能呼び出し(FC)機能を備えた、自律的なエージェントとしてますます機能している。
従来の研究は主にFCの精度向上に重点を置いてきたが、これらのエージェントの入力の摂動に対する堅牢性にはほとんど注意が払われていない。
本稿では,2つの重要な領域においてFCのロバスト性を評価するベンチマークを紹介する。
BFCL(Leaderboard)と呼ばれるバークレー関数の注意深く拡張されたサブセット上で最高の性能を持つFCモデルを評価し、既存の評価手法の重大な弱点を特定し、実世界のエージェント展開を改善するための領域を強調する。
関連論文リスト
- Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training [69.13064064991552]
Hephaestus-Forgeは、API関数呼び出し、本質的な推論、計画におけるLLMエージェントの機能を強化するために設計された大規模な事前トレーニングコーパスである。
Hephaestus-Forgeは、76,537のAPIを含む103Bのエージェント固有のデータで構成されている。
Hephaestus-Forge上でのトレーニングの継続により、Hephaestusは3つのエージェントベンチマークで、小規模から中規模のオープンソースLLMと商用LLMに匹敵するパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2025-02-10T15:54:34Z) - RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。
コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。
最大で10.3%の改善が達成されている。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Hammer: Robust Function-Calling for On-Device Language Models via Function Masking [26.495781685810044]
Hammerはデバイス上での関数呼び出し用に特別に設計されたファンデーションモデルの新しいファミリーである。
我々の経験的評価は、ハマーがより大きなモデルを上回るだけでなく、様々なベンチマークで堅牢な一般化を示すことを示している。
論文 参考訳(メタデータ) (2024-10-06T18:57:46Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - Evaluation of Active Feature Acquisition Methods for Static Feature
Settings [6.645033437894859]
能動機能取得性能評価のための半オフライン強化学習フレームワーク(AFAPE)を提案する。
本稿では,AFAPE問題を時間不変な静的な特徴設定に適用し,拡張する。
半オフラインRLフレームワーク内の新しい逆確率重み付け(IPW)、直接法(DM)、二重強化学習(DRL)推定器を導出し、適応する。
論文 参考訳(メタデータ) (2023-12-06T17:07:42Z) - Towards Robust Active Feature Acquisition [14.785570635390744]
アクティブ機能獲得(AFA)モデルは、少数の候補機能に対処し、大きな機能領域へのスケーリングが困難である。
我々は,現在のAFAアプローチを進めるためのいくつかの手法を提案する。
本フレームワークは階層的な取得ポリシを用いて,多数の機能を容易に扱えるとともに,OOD検出器の助けを借りてOOD入力に対してより堅牢である。
論文 参考訳(メタデータ) (2021-07-09T01:06:13Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。