論文の概要: Towards better Human-Agent Alignment: Assessing Task Utility in
LLM-Powered Applications
- arxiv url: http://arxiv.org/abs/2402.09015v2
- Date: Thu, 15 Feb 2024 18:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 12:02:58.750718
- Title: Towards better Human-Agent Alignment: Assessing Task Utility in
LLM-Powered Applications
- Title(参考訳): ヒューマンエージェントのアライメント向上に向けて: LLMアプリケーションにおけるタスクユーティリティの評価
- Authors: Negar Arabzadeh and Julia Kiseleva and Qingyun Wu and Chi Wang and
Ahmed Awadallah and Victor Dibia and Adam Fourney and Charles Clarke
- Abstract要約: AgentEvalはユーティリティ検証プロセスをシンプルにするために設計されたフレームワークである。
本稿では,量子化器の研究の堅牢性について包括的に分析する。
- 参考スコア(独自算出の注目度): 37.047117782796064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development in the field of Large Language Models (LLMs) has led to
a surge in applications that facilitate collaboration among multiple agents to
assist humans in their daily tasks. However, a significant gap remains in
assessing whether LLM-powered applications genuinely enhance user experience
and task execution efficiency. This highlights the pressing need for methods to
verify utility of LLM-powered applications, particularly by ensuring alignment
between the application's functionality and end-user needs. We introduce
AgentEval provides an implementation for the math problems}, a novel framework
designed to simplify the utility verification process by automatically
proposing a set of criteria tailored to the unique purpose of any given
application. This allows for a comprehensive assessment, quantifying the
utility of an application against the suggested criteria. We present a
comprehensive analysis of the robustness of quantifier's work.
- Abstract(参考訳): 大規模言語モデル(llm)の分野における急速な発展は、人間の日常業務を支援する複数のエージェント間のコラボレーションを促進するアプリケーションの増加につながった。
しかし、LCMを利用したアプリケーションが実際にユーザエクスペリエンスとタスク実行効率を向上させるかどうかを評価する上で、大きなギャップが残っている。
このことは、特にアプリケーションの機能とエンドユーザのニーズの整合性を確保することによって、LLMベースのアプリケーションの有用性を検証する方法の必要性を強調している。
agentevalは、特定のアプリケーションのユニークな目的に合わせた一連の基準を自動的に提案することにより、ユーティリティ検証プロセスを単純化するために設計された、新しいフレームワークである。
これにより、提案された基準に対してアプリケーションの実用性を定量化する包括的な評価が可能になる。
本稿では,量子化器の研究のロバスト性に関する包括的分析を行う。
関連論文リスト
- OfficeBench: Benchmarking Language Agents across Multiple Applications for Office Automation [51.27062359412488]
Officeの自動化は、ワークフローでルーチンタスクを自動的に終了することで、人間の生産性を著しく向上させる。
OfficeBenchは、現実的なオフィスにおけるオフィスタスクに対処する現在のLLMエージェントの能力を評価するための、最初のオフィス自動化ベンチマークの1つです。
各タスクにカスタマイズした評価手法を適用すると、GPT-4 Omniは47.00%の最高パス率を達成し、オフィスタスクの処理に優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-26T19:27:17Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Benchmarking Open-Source Language Models for Efficient Question Answering in Industrial Applications [0.0]
大規模言語モデル (LLM) は質問応答 (QA) のようなタスクにおいて顕著な機能を示した。
本稿では,オープンソース LLM とオープンソースでない LLM を比較し,質問応答の課題について総合的なベンチマーク研究を行う。
論文 参考訳(メタデータ) (2024-06-19T17:11:51Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Assessing and Verifying Task Utility in LLM-Powered Applications [28.41607905656699]
大規模言語モデル(LLM)は、エージェント間のコラボレーションを促進し、人間の日常的なタスクを支援するアプリケーションの増加につながっている。
このことは、特にアプリケーションの機能とエンドユーザのニーズの整合性を確保することによって、LLMベースのアプリケーションのユーティリティを検証する必要性を強調している。
AgentEvalは,アプリケーション固有の目的に合わせた一連の基準を自動提案することで,ユーティリティ検証プロセスを簡素化する新しいフレームワークである。
論文 参考訳(メタデータ) (2024-05-03T15:26:27Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - The Shifted and The Overlooked: A Task-oriented Investigation of
User-GPT Interactions [114.67699010359637]
実際のユーザクエリの大規模なコレクションをGPTに解析する。
ユーザインタラクションでは'設計'や'計画'といったタスクが一般的だが,従来のNLPベンチマークとは大きく異なる。
論文 参考訳(メタデータ) (2023-10-19T02:12:17Z) - Formally Specifying the High-Level Behavior of LLM-Based Agents [24.645319505305316]
LLMはタスク固有の微調整モデルを必要とせずに、課題を解決するための有望なツールとして登場した。
現在、このようなエージェントの設計と実装はアドホックであり、LLMベースのエージェントが自然に適用できる様々なタスクは、エージェント設計に一律に適合するアプローチが存在しないことを意味する。
エージェント構築のプロセスを簡単にする最小主義的生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-12T17:24:15Z) - TPTU: Large Language Model-based AI Agents for Task Planning and Tool
Usage [28.554981886052953]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。
LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。
本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T09:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。