論文の概要: Instruction-Following Evaluation in Function Calling for Large Language Models
- arxiv url: http://arxiv.org/abs/2509.18420v1
- Date: Mon, 22 Sep 2025 21:04:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.587074
- Title: Instruction-Following Evaluation in Function Calling for Large Language Models
- Title(参考訳): 大規模言語モデルに対する関数呼び出しにおける指示追従評価
- Authors: Nikolai Skripko,
- Abstract要約: IFEval にインスパイアされたベンチマーク IFEval-FC (arXiv:2311.079) を紹介する。
IFEval-FCは、関数呼び出しによる正確な命令を評価する。
GPT-5やClaude 4.1 Opusといった最先端のプロプライエタリモデルでさえ、基本的なフォーマットルールに従わなかったことがよく示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Function calling is a core capability of large language models, essential for AI agents. Existing benchmarks such as the Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982), and ACEBench (arXiv:2501.12851) evaluate argument correctness but do not test adherence to format instructions embedded in parameter descriptions, such as enclosing values in double quotes or using ISO date formats. We introduce IFEval-FC, a benchmark inspired by IFEval (arXiv:2311.07911) that assesses precise instruction following in function calling. IFEval-FC encodes verifiable formats directly within JSON schema descriptions, for example specifying that a value must not contain punctuation. It includes 750 test cases, each consisting of a function with an embedded format for one of its input parameters and a corresponding user query. Evaluation is fully algorithmic, ensuring objectivity, reproducibility, and scalability. Our results show that even state-of-the-art proprietary models, including GPT-5 and Claude 4.1 Opus, frequently fail to follow basic formatting rules, highlighting a practical limitation for real-world agent systems. The complete codebase and data are publicly available at https://github.com/Skripkon/IFEval-FC.
- Abstract(参考訳): 関数呼び出しは、AIエージェントに不可欠な、大規模な言語モデルのコア機能である。
既存のベンチマークでは、バークレー関数呼び出しリーダーボード (BFCL) や tau^2-Bench (arXiv:2506.07982) や ACEBench (arXiv:2501.12851) が引数の正当性を評価しているが、二重引用やISO日付のフォーマットで値を囲むようなパラメータ記述に埋め込まれた形式命令に固執しない。
IFEval-FC は IFEval (arXiv:2311.07911) にインスパイアされたベンチマークであり、関数呼び出しにおける正確な命令を評価できる。
IFEval-FCはJSONスキーマ記述の中に直接検証可能なフォーマットをエンコードする。
750のテストケースを含み、それぞれが入力パラメータの1つと対応するユーザクエリ用の埋め込みフォーマットを備えた関数で構成されている。
評価は完全にアルゴリズム的であり、客観性、再現性、拡張性を保証する。
GPT-5やClaude 4.1 Opusなど,最先端のプロプライエタリモデルでさえ,基本的なフォーマット規則に従わなかったことが,現実のエージェントシステムに対する現実的な制限を浮き彫りにしている。
完全なコードベースとデータはhttps://github.com/Skripkon/IFEval-FCで公開されている。
関連論文リスト
- Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。
そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。
提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文 参考訳(メタデータ) (2025-04-12T15:03:00Z) - Evaluating LLM-driven User-Intent Formalization for Verification-Aware Languages [6.0608817611709735]
本稿では,検証対応言語における仕様の質を評価するための指標を提案する。
MBPPコード生成ベンチマークのDafny仕様の人間ラベル付きデータセットに,我々の測定値が密接に一致することを示す。
また、このテクニックをより広く適用するために対処する必要がある正式な検証課題についても概説する。
論文 参考訳(メタデータ) (2024-06-14T06:52:08Z) - Instruction-Following Evaluation for Large Language Models [52.90926820437014]
大規模言語モデルに対するインストラクション・フォロー・エスバル(IFEval)を提案する。
IFEvalは、単純で簡単に再現できる評価ベンチマークである。
市場における2つのLLMの評価結果を示す。
論文 参考訳(メタデータ) (2023-11-14T05:13:55Z) - FormaT5: Abstention and Examples for Conditional Table Formatting with
Natural Language [20.014372488951533]
FormaT5は、テーブルの条件付きフォーマットルールを生成するトランスフォーマーベースのモデルである。
これらのタスクのユーザ記述は、しばしば不明確か曖昧であり、コード生成システムが所望のルールを正確に学習することが難しくなる。
FormaT5がプレースホルダーを予測することを学習するが、このプレースホルダーは第2のモデルで満たされるか、あるいはフォーマットすべき行の例を、プログラム・バイ・サンプル・システムで利用できる。
論文 参考訳(メタデータ) (2023-10-26T11:05:15Z) - FIND: A Function Description Benchmark for Evaluating Interpretability
Methods [86.80718559904854]
本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。
FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。
本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
論文 参考訳(メタデータ) (2023-09-07T17:47:26Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。