論文の概要: On the Robustness of Agentic Function Calling
- arxiv url: http://arxiv.org/abs/2504.00914v1
- Date: Tue, 01 Apr 2025 15:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 15:43:09.176166
- Title: On the Robustness of Agentic Function Calling
- Title(参考訳): エージェント関数呼び出しのロバスト性について
- Authors: Ella Rabinovich, Ateret Anaby-Tavor,
- Abstract要約: 大規模言語モデル(LLM)は、タスクのための特定のツールを呼び出すことができる機能呼び出し(FC)機能を備えた、自律的なエージェントとしてますます機能している。
本稿では,2つの重要な領域においてFCのロバスト性を評価するベンチマークを紹介する。
- 参考スコア(独自算出の注目度): 5.0243930429558885
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly acting as autonomous agents, with function calling (FC) capabilities enabling them to invoke specific tools for tasks. While prior research has primarily focused on improving FC accuracy, little attention has been given to the robustness of these agents to perturbations in their input. We introduce a benchmark assessing FC robustness in two key areas: resilience to naturalistic query variations, and stability in function calling when the toolkit expands with semantically related tools. Evaluating best-performing FC models on a carefully expanded subset of the Berkeley function calling leaderboard (BFCL), we identify critical weaknesses in existing evaluation methodologies, and highlight areas for improvement in real-world agentic deployments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、タスクのための特定のツールを呼び出すことができる機能呼び出し(FC)機能を備えた、自律的なエージェントとしてますます機能している。
従来の研究は主にFCの精度向上に重点を置いてきたが、これらのエージェントの入力の摂動に対する堅牢性にはほとんど注意が払われていない。
本稿では,2つの重要な領域においてFCのロバスト性を評価するベンチマークを紹介する。
BFCL(Leaderboard)と呼ばれるバークレー関数の注意深く拡張されたサブセット上で最高の性能を持つFCモデルを評価し、既存の評価手法の重大な弱点を特定し、実世界のエージェント展開を改善するための領域を強調する。
関連論文リスト
- Breach in the Shield: Unveiling the Vulnerabilities of Large Language Models [13.216398753024182]
大言語モデル(LLM)と視覚言語モデル(VLM)は、汎用人工知能にとって欠かせないものとなっている。
本稿では,情報幾何学に根ざした統計的手法に着想を得たLSMの新しい安定性尺度を提案する。
提案手法は,入力画像中の有害領域やトークン埋め込みにおける臨界次元の検出に有効であることを示す。
論文 参考訳(メタデータ) (2025-03-28T16:23:59Z) - AgentOrca: A Dual-System Framework to Evaluate Language Agents on Operational Routine and Constraint Adherence [54.317522790545304]
本稿では,言語エージェントの動作制約やルーチンに対するコンプライアンスを評価するための,デュアルシステムフレームワークであるAgentOrcaを提案する。
本フレームワークは,エージェントの自然言語プロンプトと,それに対応する実行可能コードが,自動検証のための基礎的真理として機能することを通じて,行動制約とルーチンを符号化する。
以上の結果から,o1のような大きな推論モデルではコンプライアンスが良好であり,他のモデルではパフォーマンスが著しく低下していることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Benchmarking LLMs and LLM-based Agents in Practical Vulnerability Detection for Code Repositories [8.583591493627276]
JitVulは、各関数をその脆弱性導入とコミットの修正にリンクする脆弱性検出ベンチマークである。
思考・行動・観察と相互言語的文脈を活用するReAct Agentsは,良性のあるコードと区別する上で,LLMよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-03-05T15:22:24Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training [69.13064064991552]
Hephaestus-Forgeは、API関数呼び出し、本質的な推論、計画におけるLLMエージェントの機能を強化するために設計された大規模な事前トレーニングコーパスである。
Hephaestus-Forgeは、76,537のAPIを含む103Bのエージェント固有のデータで構成されている。
Hephaestus-Forge上でのトレーニングの継続により、Hephaestusは3つのエージェントベンチマークで、小規模から中規模のオープンソースLLMと商用LLMに匹敵するパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2025-02-10T15:54:34Z) - RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。
コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。
最大で10.3%の改善が達成されている。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Hammer: Robust Function-Calling for On-Device Language Models via Function Masking [26.495781685810044]
Hammerはデバイス上での関数呼び出し用に特別に設計されたファンデーションモデルの新しいファミリーである。
我々の経験的評価は、ハマーがより大きなモデルを上回るだけでなく、様々なベンチマークで堅牢な一般化を示すことを示している。
論文 参考訳(メタデータ) (2024-10-06T18:57:46Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z) - Towards Robust Active Feature Acquisition [14.785570635390744]
アクティブ機能獲得(AFA)モデルは、少数の候補機能に対処し、大きな機能領域へのスケーリングが困難である。
我々は,現在のAFAアプローチを進めるためのいくつかの手法を提案する。
本フレームワークは階層的な取得ポリシを用いて,多数の機能を容易に扱えるとともに,OOD検出器の助けを借りてOOD入力に対してより堅牢である。
論文 参考訳(メタデータ) (2021-07-09T01:06:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。