Fugu-MT 論文翻訳(概要): On the Robustness of Agentic Function Calling

論文の概要: On the Robustness of Agentic Function Calling

arxiv url: http://arxiv.org/abs/2504.00914v1
Date: Tue, 01 Apr 2025 15:48:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 15:43:09.176166
Title: On the Robustness of Agentic Function Calling
Title（参考訳）: エージェント関数呼び出しのロバスト性について
Authors: Ella Rabinovich, Ateret Anaby-Tavor,
Abstract要約: 大規模言語モデル(LLM)は、タスクのための特定のツールを呼び出すことができる機能呼び出し(FC)機能を備えた、自律的なエージェントとしてますます機能している。本稿では,2つの重要な領域においてFCのロバスト性を評価するベンチマークを紹介する。
参考スコア（独自算出の注目度）: 5.0243930429558885
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) are increasingly acting as autonomous agents, with function calling (FC) capabilities enabling them to invoke specific tools for tasks. While prior research has primarily focused on improving FC accuracy, little attention has been given to the robustness of these agents to perturbations in their input. We introduce a benchmark assessing FC robustness in two key areas: resilience to naturalistic query variations, and stability in function calling when the toolkit expands with semantically related tools. Evaluating best-performing FC models on a carefully expanded subset of the Berkeley function calling leaderboard (BFCL), we identify critical weaknesses in existing evaluation methodologies, and highlight areas for improvement in real-world agentic deployments.
Abstract（参考訳）: 大規模言語モデル(LLM)は、タスクのための特定のツールを呼び出すことができる機能呼び出し(FC)機能を備えた、自律的なエージェントとしてますます機能している。従来の研究は主にFCの精度向上に重点を置いてきたが、これらのエージェントの入力の摂動に対する堅牢性にはほとんど注意が払われていない。本稿では,2つの重要な領域においてFCのロバスト性を評価するベンチマークを紹介する。 BFCL(Leaderboard)と呼ばれるバークレー関数の注意深く拡張されたサブセット上で最高の性能を持つFCモデルを評価し、既存の評価手法の重大な弱点を特定し、実世界のエージェント展開を改善するための領域を強調する。

関連論文リスト

Exploring Superior Function Calls via Reinforcement Learning [9.278264697070306]
本稿では,グループ相対的政策最適化を強化するための新しい強化学習フレームワークを提案する。機能呼び出しにおける3つの重要な課題に対処する: 政策学習における不十分な探索、連鎖生成における構造的推論の欠如、パラメータ抽出の不十分な検証。本フレームワークは,86.02%の精度でオープンソースモデル間の最先端性能を実現し,複雑な多機能シナリオにおいて標準GRPOを最大6%上回っている。
論文参考訳（メタデータ） (2025-08-07T07:51:38Z)
More Vulnerable than You Think: On the Stability of Tool-Integrated LLM Agents [24.84276066855418]
本研究では,ツール実行プロセス全体を通して,エージェントがエラーに対して脆弱であるかどうかを検討する。エージェントは各段階でエラーの影響を受けやすく,オープンソースモデルに基づくエージェントは,プロプライエタリモデルに基づくエージェントよりも脆弱である。
論文参考訳（メタデータ） (2025-06-27T07:13:29Z)
Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。 AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文参考訳（メタデータ） (2025-05-28T20:22:43Z)
Position: Mechanistic Interpretability Should Prioritize Feature Consistency in SAEs [34.52554840674882]
本稿では,機械的解釈可能性について,SAEにおける特徴整合性を優先すべきであると主張している。本稿では,Pairwise Dictionaryの平均相関係数を実測値として用いて,一貫性を運用する手法を提案する。
論文参考訳（メタデータ） (2025-05-26T17:31:36Z)
Prompt Stability Matters: Evaluating and Optimizing Auto-Generated Prompt in General-Purpose Systems [19.59294293070619]
モデル応答の応答一貫性を評価するための基準としてセマンティック安定性を導入する。安定性に配慮した汎用的なプロンプト生成システムを開発した。私たちの研究は、より信頼性の高い汎用システムを構築するための実践的なツールとして、迅速な設計に関する新たな視点を提供しています。
論文参考訳（メタデータ） (2025-05-19T03:28:33Z)
Breach in the Shield: Unveiling the Vulnerabilities of Large Language Models [13.216398753024182]
大言語モデル(LLM)と視覚言語モデル(VLM)は、汎用人工知能にとって欠かせないものとなっている。本稿では,情報幾何学に根ざした統計的手法に着想を得たLSMの新しい安定性尺度を提案する。提案手法は,入力画像中の有害領域やトークン埋め込みにおける臨界次元の検出に有効であることを示す。
論文参考訳（メタデータ） (2025-03-28T16:23:59Z)
AgentOrca: A Dual-System Framework to Evaluate Language Agents on Operational Routine and Constraint Adherence [54.317522790545304]
本稿では,言語エージェントの動作制約やルーチンに対するコンプライアンスを評価するための,デュアルシステムフレームワークであるAgentOrcaを提案する。本フレームワークは,エージェントの自然言語プロンプトと,それに対応する実行可能コードが,自動検証のための基礎的真理として機能することを通じて,行動制約とルーチンを符号化する。以上の結果から,o1のような大きな推論モデルではコンプライアンスが良好であり,他のモデルではパフォーマンスが著しく低下していることが明らかとなった。
論文参考訳（メタデータ） (2025-03-11T17:53:02Z)
Benchmarking LLMs and LLM-based Agents in Practical Vulnerability Detection for Code Repositories [8.583591493627276]
JitVulは、各関数をその脆弱性導入とコミットの修正にリンクする脆弱性検出ベンチマークである。思考・行動・観察と相互言語的文脈を活用するReAct Agentsは,良性のあるコードと区別する上で,LLMよりも優れた性能を示すことを示す。
論文参考訳（メタデータ） (2025-03-05T15:22:24Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training [69.13064064991552]
Hephaestus-Forgeは、API関数呼び出し、本質的な推論、計画におけるLLMエージェントの機能を強化するために設計された大規模な事前トレーニングコーパスである。 Hephaestus-Forgeは、76,537のAPIを含む103Bのエージェント固有のデータで構成されている。 Hephaestus-Forge上でのトレーニングの継続により、Hephaestusは3つのエージェントベンチマークで、小規模から中規模のオープンソースLLMと商用LLMに匹敵するパフォーマンスを誇っている。
論文参考訳（メタデータ） (2025-02-10T15:54:34Z)
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文参考訳（メタデータ） (2025-01-24T13:48:10Z)
Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。最大で10.3%の改善が達成されている。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。 2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。 3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文参考訳（メタデータ） (2024-10-08T15:28:33Z)
Hammer: Robust Function-Calling for On-Device Language Models via Function Masking [26.495781685810044]
Hammerはデバイス上での関数呼び出し用に特別に設計されたファンデーションモデルの新しいファミリーである。我々の経験的評価は、ハマーがより大きなモデルを上回るだけでなく、様々なベンチマークで堅牢な一般化を示すことを示している。
論文参考訳（メタデータ） (2024-10-06T18:57:46Z)
AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。 AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文参考訳（メタデータ） (2024-01-24T01:51:00Z)
How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。 SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文参考訳（メタデータ） (2023-12-28T16:51:11Z)
Towards Robust Active Feature Acquisition [14.785570635390744]
アクティブ機能獲得(AFA)モデルは、少数の候補機能に対処し、大きな機能領域へのスケーリングが困難である。我々は,現在のAFAアプローチを進めるためのいくつかの手法を提案する。本フレームワークは階層的な取得ポリシを用いて,多数の機能を容易に扱えるとともに,OOD検出器の助けを借りてOOD入力に対してより堅牢である。
論文参考訳（メタデータ） (2021-07-09T01:06:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。