Fugu-MT 論文翻訳(概要): Towards better Human-Agent Alignment: Assessing Task Utility in LLM-Powered Applications

論文の概要: Towards better Human-Agent Alignment: Assessing Task Utility in LLM-Powered Applications

arxiv url: http://arxiv.org/abs/2402.09015v3
Date: Thu, 22 Feb 2024 23:49:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 17:07:15.193111
Title: Towards better Human-Agent Alignment: Assessing Task Utility in LLM-Powered Applications
Title（参考訳）: ヒューマンエージェントのアライメント向上に向けて: LLMアプリケーションにおけるタスクユーティリティの評価
Authors: Negar Arabzadeh and Julia Kiseleva and Qingyun Wu and Chi Wang and Ahmed Awadallah and Victor Dibia and Adam Fourney and Charles Clarke
Abstract要約: AgentEvalはユーティリティ検証プロセスをシンプルにするために設計されたフレームワークである。本稿では,量子化器の研究の堅牢性について包括的に分析する。
参考スコア（独自算出の注目度）: 37.047117782796064
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid development in the field of Large Language Models (LLMs) has led to a surge in applications that facilitate collaboration among multiple agents to assist humans in their daily tasks. However, a significant gap remains in assessing whether LLM-powered applications genuinely enhance user experience and task execution efficiency. This highlights the pressing need for methods to verify utility of LLM-powered applications, particularly by ensuring alignment between the application's functionality and end-user needs. We introduce AgentEval provides an implementation for the math problems, a novel framework designed to simplify the utility verification process by automatically proposing a set of criteria tailored to the unique purpose of any given application. This allows for a comprehensive assessment, quantifying the utility of an application against the suggested criteria. We present a comprehensive analysis of the robustness of quantifier's work.
Abstract（参考訳）: 大規模言語モデル(llm)の分野における急速な発展は、人間の日常業務を支援する複数のエージェント間のコラボレーションを促進するアプリケーションの増加につながった。しかし、LCMを利用したアプリケーションが実際にユーザエクスペリエンスとタスク実行効率を向上させるかどうかを評価する上で、大きなギャップが残っている。このことは、特にアプリケーションの機能とエンドユーザのニーズの整合性を確保することによって、LLMベースのアプリケーションの有用性を検証する方法の必要性を強調している。 agentevalは、任意のアプリケーションのユニークな目的に合わせた一連の基準を自動的に提案することにより、ユーティリティ検証プロセスを単純化するために設計された、新しいフレームワークである。これにより、提案された基準に対してアプリケーションの実用性を定量化する包括的な評価が可能になる。本稿では,量子化器の研究のロバスト性に関する包括的分析を行う。

関連論文リスト

AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文参考訳（メタデータ） (2026-01-28T13:49:18Z)
Leveraging LLMs for reward function design in reinforcement learning control tasks [0.0]
本稿では,LEARN-Opt (LLM-based Evaluator and Analyzer for Reward functioN Optimization)を紹介する。このフレームワークは、システムやタスク目標のテキスト記述から報酬関数候補を生成し、実行し、評価する。実験の結果,LEARN-Optは最先端手法に匹敵する性能を示した。
論文参考訳（メタデータ） (2025-11-24T17:55:46Z)
Continuous Benchmark Generation for Evaluating Enterprise-scale LLM Agents [23.277131100190086]
本稿では,要求の変化に応じてベンチマークを進化させ,進化するAIエージェントの堅牢な評価を行うベンチマーク生成プロセスを提案する。このアプローチは、開発者が高レベルのインテントを表現し、最先端のLCMを使用して、ごく少数の文書からベンチマークを生成する半構造化ドキュメントに依存している。
論文参考訳（メタデータ） (2025-11-13T07:48:22Z)
EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [65.48902212293903]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。 EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-10T02:39:55Z)
AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。 AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文参考訳（メタデータ） (2025-05-22T17:31:10Z)
MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models [11.809732662992982]
本稿では,モデルコンテキストプロトコル (MCP) フレームワークにおける大規模言語モデル (LLM) の性能を評価するために設計された,最初の総合ベンチマークである MCP-RADAR を紹介する。 MCP-RADARは主観的な人的評価やバイナリ成功メトリクスに依存する従来のベンチマークとは異なり、複数のタスク領域にわたって客観的に定量化されている。
論文参考訳（メタデータ） (2025-05-22T14:02:37Z)
Towards more Contextual Agents: An extractor-Generator Optimization Framework [0.0]
LLM(Large Language Model)ベースのエージェントは、幅広い汎用アプリケーションにわたる複雑なタスクの解決に顕著な成功を収めている。しかしながら、それらのパフォーマンスは、専門産業や研究領域のようなコンテキスト固有のシナリオで劣化することが多い。この課題に対処するため,本研究では,LLMエージェントの文脈適応性を高めるための体系的アプローチを提案する。
論文参考訳（メタデータ） (2025-02-18T15:07:06Z)
OfficeBench: Benchmarking Language Agents across Multiple Applications for Office Automation [51.27062359412488]
Officeの自動化は、ワークフローでルーチンタスクを自動的に終了することで、人間の生産性を著しく向上させる。 OfficeBenchは、現実的なオフィスにおけるオフィスタスクに対処する現在のLLMエージェントの能力を評価するための、最初のオフィス自動化ベンチマークの1つです。各タスクにカスタマイズした評価手法を適用すると、GPT-4 Omniは47.00%の最高パス率を達成し、オフィスタスクの処理に優れた性能を示した。
論文参考訳（メタデータ） (2024-07-26T19:27:17Z)
WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。 WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文参考訳（メタデータ） (2024-07-07T07:15:49Z)
Benchmarking Open-Source Language Models for Efficient Question Answering in Industrial Applications [0.0]
大規模言語モデル (LLM) は質問応答 (QA) のようなタスクにおいて顕著な機能を示した。本稿では,オープンソース LLM とオープンソースでない LLM を比較し,質問応答の課題について総合的なベンチマーク研究を行う。
論文参考訳（メタデータ） (2024-06-19T17:11:51Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Assessing and Verifying Task Utility in LLM-Powered Applications [28.41607905656699]
大規模言語モデル(LLM)は、エージェント間のコラボレーションを促進し、人間の日常的なタスクを支援するアプリケーションの増加につながっている。このことは、特にアプリケーションの機能とエンドユーザのニーズの整合性を確保することによって、LLMベースのアプリケーションのユーティリティを検証する必要性を強調している。 AgentEvalは,アプリケーション固有の目的に合わせた一連の基準を自動提案することで,ユーティリティ検証プロセスを簡素化する新しいフレームワークである。
論文参考訳（メタデータ） (2024-05-03T15:26:27Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
The Shifted and The Overlooked: A Task-oriented Investigation of User-GPT Interactions [114.67699010359637]
実際のユーザクエリの大規模なコレクションをGPTに解析する。ユーザインタラクションでは'設計'や'計画'といったタスクが一般的だが,従来のNLPベンチマークとは大きく異なる。
論文参考訳（メタデータ） (2023-10-19T02:12:17Z)
Formally Specifying the High-Level Behavior of LLM-Based Agents [24.645319505305316]
LLMはタスク固有の微調整モデルを必要とせずに、課題を解決するための有望なツールとして登場した。現在、このようなエージェントの設計と実装はアドホックであり、LLMベースのエージェントが自然に適用できる様々なタスクは、エージェント設計に一律に適合するアプローチが存在しないことを意味する。エージェント構築のプロセスを簡単にする最小主義的生成フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-12T17:24:15Z)
TPTU: Large Language Model-based AI Agents for Task Planning and Tool Usage [28.554981886052953]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。 LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-07T09:22:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。