Fugu-MT 論文翻訳(概要): FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

論文の概要: FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

arxiv url: http://arxiv.org/abs/2603.04857v1
Date: Thu, 05 Mar 2026 06:25:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.099766
Title: FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications
Title（参考訳）: FireBench: エンタープライズおよびAPI駆動のLLMアプリケーションにおける指示に従うことを評価する
Authors: Yunfan Zhang, Yijie Bei, Jetashree Ravi, Pawel Garbacki,
Abstract要約: 実世界のエンタープライズおよびAPI利用パターンをベースとしたLCM命令に続くベンチマークであるFireBenchを紹介する。 FireBenchは、情報抽出、カスタマーサポート、コーディングエージェントなど、さまざまなアプリケーションにわたる6つのコア機能ディメンションを評価している。企業シナリオにおけるその後の行動の指示に関する重要な知見を提示する。
参考スコア（独自算出の注目度）: 2.7843413352282
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Instruction following is critical for LLMs deployed in enterprise and API-driven settings, where strict adherence to output formats, content constraints, and procedural requirements is essential for enabling reliable LLM-assisted workflows. However, existing instruction following benchmarks predominantly evaluate natural language generation constraints that reflect the needs of chat assistants rather than enterprise users. To bridge this gap, we introduce FireBench, an LLM instruction following benchmark grounded in real-world enterprise and API usage patterns. FireBench evaluates six core capability dimensions across diverse applications including information extraction, customer support, and coding agents, comprising over 2,400 samples. We evaluate 11 LLMs and present key findings on their instruction following behavior in enterprise scenarios. We open-source FireBench at fire-bench.com to help users assess model suitability, support model developers in diagnosing performance, and invite community contributions.
Abstract（参考訳）: アウトプットフォーマットやコンテント制約,手続き的要件への厳格な遵守が,信頼性の高いLLM支援ワークフローの実現に不可欠である。しかし、既存のインストラクションのベンチマークは、企業ユーザーではなく、チャットアシスタントのニーズを反映した自然言語生成の制約を主に評価している。このギャップを埋めるために、実世界のエンタープライズおよびAPI利用パターンに基礎を置いているLLMインストラクションであるFireBenchを紹介します。 FireBenchは、情報抽出、カスタマーサポート、コーディングエージェントなど、さまざまなアプリケーションにまたがる6つのコア機能ディメンションを評価し、2400以上のサンプルで構成されている。企業シナリオにおいて,11個のLCMを評価し,その動作の追跡に関する重要な知見を提示する。 fire-bench.comでFireBenchをオープンソース化し、モデル適合性の評価、パフォーマンスの診断におけるモデル開発者のサポート、コミュニティからのコントリビューションの招待を支援します。

関連論文リスト

WRAVAL -- WRiting Assist eVALuation [7.441391098440092]
小言語モデル (SLM) は通常、推論の基準で、LLM (Large Language Models) よりも3～4倍低いスコアを得る。本研究では,非推論タスクにおけるSLMの能力を強調するための評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-19T09:21:27Z)
EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits [72.23150343093447]
本稿では,実環境におけるコード編集機能の評価のためのベンチマークであるEDIT-Benchを紹介する。 EDIT-Benchは545の問題、複数の自然言語およびプログラミング言語、および様々な現実世界のユースケースからなる。モデルの性能は、ユーザ命令のカテゴリによって異なります。
論文参考訳（メタデータ） (2025-11-06T16:05:28Z)
Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks [21.891522433628893]
大規模言語モデル(LLM)はText-to-(Text2)システムにますます力を入れている。テストタイムのスケーリング戦略はLLMベースのソリューションでは有望だが、現実のアプリケーション、特に最新の推論モデルでは、その有効性は不確実である。この作業は、Text2システムをデプロイする際の正確性、効率、複雑さの間の実践的なトレードオフに光を当てています。
論文参考訳（メタデータ） (2025-10-13T01:29:54Z)
Research Challenges in Relational Database Management Systems for LLM Queries [5.014147650339722]
大規模言語モデル(LLM)は、テキスト要約、感情分析、自動質問応答などのアプリケーションに欠かせないものとなっている。近年,LLMはクエリ機能を強化し,高度なデータ処理をサポートするリレーショナルデータベース管理システムに統合されている。オープンソースソリューションは現在、機能に制限があり、パフォーマンスが劣っている。
論文参考訳（メタデータ） (2025-08-28T15:41:49Z)
AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。 AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文参考訳（メタデータ） (2025-05-22T17:31:10Z)
Harnessing LLMs for API Interactions: A Framework for Classification and Synthetic Data Generation [0.0]
本稿では,自然言語入力を対応するAPI呼び出しに分類するために,Large Language Models (LLM) を統合する新しいシステムを提案する。本システムでは,単純な入力による複雑なソフトウェア機能の実行,インタラクション効率の向上,ソフトウェア利用障壁の低減を実現している。
論文参考訳（メタデータ） (2024-09-18T04:56:52Z)
NESTFUL: A Benchmark for Evaluating LLMs on Nested Sequences of API Calls [24.183027762617233]
API呼び出しのネストシーケンスに基づいて,大規模言語モデル(LLM)を評価するベンチマークであるNESTFULを提案する。最適性能モデル (GPT-4o) は, 完全一致精度が28%, 勝率が60%であることを示す。
論文参考訳（メタデータ） (2024-09-04T17:53:24Z)
CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2024-07-15T07:43:55Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文参考訳（メタデータ） (2023-11-03T08:06:35Z)
FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。 FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文参考訳（メタデータ） (2023-10-31T12:32:38Z)
AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。