論文の概要: Assessing the Performance of Human-Capable LLMs -- Are LLMs Coming for Your Job?
- arxiv url: http://arxiv.org/abs/2410.16285v1
- Date: Sat, 05 Oct 2024 14:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-27 05:41:10.095028
- Title: Assessing the Performance of Human-Capable LLMs -- Are LLMs Coming for Your Job?
- Title(参考訳): 人力LLMの性能評価 - LLMはあなたの仕事に役立つのか?
- Authors: John Mavi, Nathan Summers, Sergio Coronado,
- Abstract要約: SelfScoreは、ヘルプデスクとプロのコンサルティングタスクにおけるLLM(Large Language Model)の自動エージェントのパフォーマンスを評価するために設計されたベンチマークである。
このベンチマークは、問題の複雑さと応答の助け、スコアリングシステムにおける透明性と単純さの確保に関するエージェントを評価する。
この研究は、特にAI技術が優れている地域では、労働者の移動の可能性への懸念を提起している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The current paper presents the development and validation of SelfScore, a novel benchmark designed to assess the performance of automated Large Language Model (LLM) agents on help desk and professional consultation tasks. Given the increasing integration of AI in industries, particularly within customer service, SelfScore fills a crucial gap by enabling the comparison of automated agents and human workers. The benchmark evaluates agents on problem complexity and response helpfulness, ensuring transparency and simplicity in its scoring system. The study also develops automated LLM agents to assess SelfScore and explores the benefits of Retrieval-Augmented Generation (RAG) for domain-specific tasks, demonstrating that automated LLM agents incorporating RAG outperform those without. All automated LLM agents were observed to perform better than the human control group. Given these results, the study raises concerns about the potential displacement of human workers, especially in areas where AI technologies excel. Ultimately, SelfScore provides a foundational tool for understanding the impact of AI in help desk environments while advocating for ethical considerations in the ongoing transition towards automation.
- Abstract(参考訳): 本稿では、ヘルプデスクと専門的なコンサルティングタスクにおけるLLMエージェントの性能を評価するために設計された新しいベンチマークであるSelfScoreの開発と検証について述べる。
産業、特にカスタマーサービスにおけるAIの統合が増加する中、セルフスコアは自動化されたエージェントとヒューマンワーカーの比較を可能にすることで、重要なギャップを埋める。
このベンチマークは、問題の複雑さと応答の有用性に関するエージェントを評価し、スコアリングシステムにおける透明性と単純さを保証する。
また、自己スコア評価のための自動LLMエージェントを開発し、ドメイン固有のタスクに対する検索・拡張生成(RAG)の利点を探求し、RAGを組み込んだ自動LLMエージェントがそれより優れていることを示した。
自動LLM剤はすべてヒトのコントロール群よりも優れた性能を示すことが観察された。
これらの結果を踏まえると、この研究は、特にAI技術が優れている分野において、人間の労働者の移動の可能性に関する懸念を提起する。
最終的にSelfScoreは、ヘルプデスク環境におけるAIの影響を理解するための基礎的なツールを提供すると同時に、自動化への継続的な移行における倫理的考慮を提唱する。
関連論文リスト
- AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。
エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。
完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文 参考訳(メタデータ) (2024-10-04T08:24:15Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Position: A Call to Action for a Human-Centered AutoML Paradigm [83.78883610871867]
自動機械学習(AutoML)は、機械学習(ML)を自動かつ効率的に構成する基本的目的を中心に形成された。
AutoMLの完全な可能性を解き放つ鍵は、現在探索されていないAutoMLシステムとのユーザインタラクションの側面に対処することにある、と私たちは主張する。
論文 参考訳(メタデータ) (2024-06-05T15:05:24Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - Characteristic AI Agents via Large Language Models [40.10858767752735]
本研究は,特有なAIエージェント構築における大規模言語モデルの性能調査に焦点をあてる。
character100''と呼ばれるデータセットがこのベンチマークのために構築されており、ウィキペディアの言語モデルでロールプレイを行う最も訪問者の多い人々で構成されている。
実験結果から,LLMの能力向上に向けた潜在的な方向性が明らかにされた。
論文 参考訳(メタデータ) (2024-03-19T02:25:29Z) - AutoAct: Automatic Agent Learning from Scratch for QA via Self-Planning [54.47116888545878]
AutoActはQAのための自動エージェント学習フレームワークである。
大規模アノテートデータやクローズドソースモデルからの合成計画軌道は依存していない。
論文 参考訳(メタデータ) (2024-01-10T16:57:24Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - Towards LLM-based Autograding for Short Textual Answers [4.853810201626855]
この写本は、自動階調のための大きな言語モデルの評価である。
のLCMは貴重なツールであるが、独立した自動グルーピングのための準備がまだ進行中であることを示唆している。
論文 参考訳(メタデータ) (2023-09-09T22:25:56Z) - Assessing the Use of AutoML for Data-Driven Software Engineering [10.40771687966477]
AutoMLは、エンドツーエンドのAI/MLパイプラインの構築を自動化することを約束する。
関心の高まりと高い期待にもかかわらず、AutoMLが現在採用されている範囲に関する情報が不足している。
論文 参考訳(メタデータ) (2023-07-20T11:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。