論文の概要: Plan-Then-Execute: An Empirical Study of User Trust and Team Performance When Using LLM Agents As A Daily Assistant
- arxiv url: http://arxiv.org/abs/2502.01390v1
- Date: Mon, 03 Feb 2025 14:23:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:58:20.203246
- Title: Plan-Then-Execute: An Empirical Study of User Trust and Team Performance When Using LLM Agents As A Daily Assistant
- Title(参考訳): Plan-Then-Execute: LLMエージェントをデイリーアシスタントとして使用する際のユーザ信頼とチームパフォーマンスに関する実証的研究
- Authors: Gaole He, Gianluca Demartini, Ujwal Gadiraju,
- Abstract要約: 大きな言語モデル(LLM)は、私たちの日常生活に影響を与え続けています。
近年の作業では,計画作業における「LLM-modulo」設定と人為的に行うことの重要性が強調されている。
それぞれの段階でのユーザ関与が、信頼と協力的なチームのパフォーマンスにどのように影響するかを分析しました。
- 参考スコア(独自算出の注目度): 15.736792988697664
- License:
- Abstract: Since the explosion in popularity of ChatGPT, large language models (LLMs) have continued to impact our everyday lives. Equipped with external tools that are designed for a specific purpose (e.g., for flight booking or an alarm clock), LLM agents exercise an increasing capability to assist humans in their daily work. Although LLM agents have shown a promising blueprint as daily assistants, there is a limited understanding of how they can provide daily assistance based on planning and sequential decision making capabilities. We draw inspiration from recent work that has highlighted the value of 'LLM-modulo' setups in conjunction with humans-in-the-loop for planning tasks. We conducted an empirical study (N = 248) of LLM agents as daily assistants in six commonly occurring tasks with different levels of risk typically associated with them (e.g., flight ticket booking and credit card payments). To ensure user agency and control over the LLM agent, we adopted LLM agents in a plan-then-execute manner, wherein the agents conducted step-wise planning and step-by-step execution in a simulation environment. We analyzed how user involvement at each stage affects their trust and collaborative team performance. Our findings demonstrate that LLM agents can be a double-edged sword -- (1) they can work well when a high-quality plan and necessary user involvement in execution are available, and (2) users can easily mistrust the LLM agents with plans that seem plausible. We synthesized key insights for using LLM agents as daily assistants to calibrate user trust and achieve better overall task outcomes. Our work has important implications for the future design of daily assistants and human-AI collaboration with LLM agents.
- Abstract(参考訳): ChatGPTの普及以来、大きな言語モデル(LLM)が私たちの日常生活に影響を与え続けている。
特定の目的のために設計された外部ツール(フライト予約やアラームクロックなど)を備えたLLMエージェントは、人間を日々の作業で支援する能力を高める。
LLMエージェントは、日々のアシスタントとして有望な青写真を見せてきたが、計画とシーケンシャルな意思決定能力に基づいて、日々の援助を提供する方法については、限られた理解しか得られていない。
我々は,計画作業における「LLM-modulo」設定と人為的な計画作業の併用の重要性を強調した最近の研究からインスピレーションを得た。
典型的に関連するリスクレベルが異なる6つのタスク(フライトチケット予約、クレジットカード支払いなど)において、LLMエージェントをデイリーアシスタントとして経験的研究(N = 248)を行った。
ユーザエージェンシーとLLMエージェントの制御を確保するため,我々はLLMエージェントを段階的に導入し,シミュレーション環境で段階的に計画と段階的に実行した。
それぞれの段階でのユーザ関与が、信頼と協力的なチームのパフォーマンスにどのように影響するかを分析しました。
以上の結果から,LLMエージェントは両刃の剣である可能性が示唆された。(1)高品質な計画と実行に要するユーザ関与が利用可能であれば,うまく機能し得る。
我々は、LLMエージェントを日常のアシスタントとして利用し、ユーザの信頼度を調整し、全体的なタスク結果を改善するための重要な洞察を合成した。
我々の研究は、日々のアシスタントの設計やLLMエージェントとの人間とAIのコラボレーションに重要な意味を持っている。
関連論文リスト
- WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - AGILE: A Novel Reinforcement Learning Framework of LLM Agents [7.982249117182315]
本稿では,ユーザとの複雑な対話処理を実現するために,LLMエージェントの強化学習フレームワークを提案する。
エージェントは、リフレクション、ツールの使用、専門家の相談など、会話以外の能力を持っている。
実験の結果, PPOで訓練した7Bおよび13B LLMをベースとしたAGILEは, GPT-4エージェントより優れていた。
論文 参考訳(メタデータ) (2024-05-23T16:17:44Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。
本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。
実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文 参考訳(メタデータ) (2023-12-28T13:50:42Z) - LLM Augmented Hierarchical Agents [4.574041097539858]
強化学習(Reinforcement Learning, RL)を用いた長期的時間的拡張タスクの解決は困難であり、事前知識(あるいは表層ラサ学習)を伴わない学習の一般的な実践によって複雑化される。
本稿では,LL を用いて環境から学習する上での LLM の計画能力を活用し,LLM を用いて長期的タスクを解く階層的エージェントを実現する。
このアプローチは、MiniGrid、SkillHack、Crafterなどのシミュレーション環境や、ブロック操作タスクにおける実際のロボットアームで評価される。
論文 参考訳(メタデータ) (2023-11-09T18:54:28Z) - AgentTuning: Enabling Generalized Agent Abilities for LLMs [35.74502545364593]
本稿では,オープンな大規模言語モデルのエージェント能力を高めるための,シンプルで汎用的なAgentTuningを提案する。
我々は、AgentInstructと一般的なドメインからのオープンソース命令を組み合わせることで、ハイブリッドなインストラクションチューニング戦略を採用する。
評価の結果,AgentTuning は汎用能力を損なうことなく LLM のエージェント機能を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-10-19T15:19:53Z) - Building Cooperative Embodied Agents Modularly with Large Language
Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文 参考訳(メタデータ) (2023-07-05T17:59:27Z) - LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large
Language Models [27.318186938382233]
本研究では,大規模言語モデル(LLM)を具体化エージェントのプランナーとして用いることに焦点を当てた。
そこで本研究では,大規模言語モデルのパワーを活かして少数ショットプランニングを行う新しい手法 LLM-Planner を提案する。
論文 参考訳(メタデータ) (2022-12-08T05:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。