論文の概要: AssistantX: An LLM-Powered Proactive Assistant in Collaborative Human-Populated Environment
- arxiv url: http://arxiv.org/abs/2409.17655v2
- Date: Tue, 17 Jun 2025 13:46:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.047916
- Title: AssistantX: An LLM-Powered Proactive Assistant in Collaborative Human-Populated Environment
- Title(参考訳): AssistantX: 協調的人為的環境におけるLLMを利用したプロアクティブアシスタント
- Authors: Nan Sun, Bo Mao, Yongchang Li, Di Guo, Huaping Liu,
- Abstract要約: AssistantXは、現実世界のシナリオにおける自律的な操作のために、高精度に設計されたプロアクティブアシスタントである。
AssistantXは4つの特殊なLLMエージェントからなるマルチエージェントフレームワークを採用しており、それぞれが知覚、計画、意思決定、反射的レビューに特化している。
実験では、AssistantXはユーザーの指示に反応し、緊急対応戦略を積極的に調整し、積極的に人間からの援助を求める。
- 参考スコア(独自算出の注目度): 16.397644118873636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current service robots suffer from limited natural language communication abilities, heavy reliance on predefined commands, ongoing human intervention, and, most notably, a lack of proactive collaboration awareness in human-populated environments. This results in narrow applicability and low utility. In this paper, we introduce AssistantX, an LLM-powered proactive assistant designed for autonomous operation in realworld scenarios with high accuracy. AssistantX employs a multi-agent framework consisting of 4 specialized LLM agents, each dedicated to perception, planning, decision-making, and reflective review, facilitating advanced inference capabilities and comprehensive collaboration awareness, much like a human assistant by your side. We built a dataset of 210 real-world tasks to validate AssistantX, which includes instruction content and status information on whether relevant personnel are available. Extensive experiments were conducted in both text-based simulations and a real office environment over the course of a month and a half. Our experiments demonstrate the effectiveness of the proposed framework, showing that AssistantX can reactively respond to user instructions, actively adjust strategies to adapt to contingencies, and proactively seek assistance from humans to ensure successful task completion. More details and videos can be found at https://assistantx-agent. github.io/AssistantX/.
- Abstract(参考訳): 現在のサービスロボットは、限られた自然言語通信能力、事前定義されたコマンドへの依存、進行中の人間の介入、そして特に人口の多い環境における積極的な協調意識の欠如に悩まされている。
その結果、適用性は狭く、実用性も低い。
本稿では,現実のシナリオにおける自律的な操作を高精度に行うための,LLM駆動のプロアクティブアシスタントであるAssistantXを紹介する。
AssistantXは4つの特殊なLLMエージェントからなるマルチエージェントフレームワークを採用しており、それぞれが認識、計画、意思決定、リフレクティブレビューに特化している。
我々は、AssistantXを検証するために、210の現実世界タスクのデータセットを構築した。
テキストベースのシミュレーションと実際のオフィス環境の両方で1ヶ月半にわたって大規模な実験を行った。
提案手法の有効性を実証し,AssistantXがユーザの指示に反応し,緊急対応戦略を積極的に調整し,タスク完了を確実にするために積極的に支援を求めることを示す。
詳細とビデオはhttps://assistantx-agent.comで見ることができる。
github.io/AssistantX/。
関連論文リスト
- Perceiving and Acting in First-Person: A Dataset and Benchmark for Egocentric Human-Object-Human Interactions [110.43343503158306]
本稿では、手動支援タスクを視覚言語アクションフレームワークに組み込み、そのアシスタントは、自我中心のビジョンとコマンドに従ってインストラクターにサービスを提供する。
この設定の下で、我々は、マルチモーダルデータの11.4時間1.2Mフレームを持つ、最初の大規模人・物・人間のインタラクションデータセットであるInterVLAを達成した。
我々は,エゴセントリックな人の動き推定,相互作用合成,および包括的分析による相互作用予測に関する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2025-08-06T17:46:23Z) - Casper: Inferring Diverse Intents for Assistive Teleoperation with Vision Language Models [50.19518681574399]
現実の遠隔操作における中心的な課題は、ロボットがユーザー制御入力から幅広い人間の意図を推測することである。
我々は、事前学習された視覚言語モデルに埋め込まれたコモンセンス知識を活用する、支援型遠隔操作システムであるCasperを紹介する。
我々は,Casperがタスク性能を改善し,人間の認知負荷を低減し,直接遠隔操作や補助遠隔操作のベースラインよりもユーザ満足度が高いことを示す。
論文 参考訳(メタデータ) (2025-06-17T17:06:43Z) - Building Knowledge from Interactions: An LLM-Based Architecture for Adaptive Tutoring and Social Reasoning [42.09560737219404]
大規模言語モデルは、人間のようなコミュニケーションにおいて有望であるが、そのスタンドアロンの使用は、メモリ制約とコンテキストの不整合によって妨げられている。
この研究は、LLMに基づく社会的・タスク指向のヒューマンロボットインタラクションにおける自律的意思決定を強化する、マルチモーダルで認知にインスパイアされたフレームワークを提示する。
自律性とパーソナライゼーションをさらに強化するために,体験の選択,保存,検索を行うメモリシステムを導入する。
論文 参考訳(メタデータ) (2025-04-02T10:45:41Z) - Plan-Then-Execute: An Empirical Study of User Trust and Team Performance When Using LLM Agents As A Daily Assistant [15.736792988697664]
大きな言語モデル(LLM)は、私たちの日常生活に影響を与え続けています。
近年の作業では,計画作業における「LLM-modulo」設定と人為的に行うことの重要性が強調されている。
それぞれの段階でのユーザ関与が、信頼と協力的なチームのパフォーマンスにどのように影響するかを分析しました。
論文 参考訳(メタデータ) (2025-02-03T14:23:22Z) - Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration [51.452664740963066]
Collaborative Gymは、エージェント、人間、タスク環境間の非同期で三分割的なインタラクションを可能にするフレームワークである。
シミュレーション条件と実環境条件の両方において,Co-Gymを3つの代表的なタスクでインスタンス化する。
その結果、協調作業員はタスクパフォーマンスにおいて、完全に自律的なエージェントよりも一貫して優れていたことが判明した。
論文 参考訳(メタデータ) (2024-12-20T09:21:15Z) - TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.46737975742287]
私たちは小さなソフトウェア企業環境を模倣したデータによる自己完結型環境を構築します。
最も競争力のあるエージェントでは、タスクの24%が自律的に完了できます。
これは、LMエージェントによるタスク自動化に関するニュアンスな絵を描く。
論文 参考訳(メタデータ) (2024-12-18T18:55:40Z) - Effect of Adaptive Communication Support on LLM-powered Human-Robot Collaboration [2.4552201513604093]
マルチモーダル言語フィードバック(HRT-ML)を用いたヒューマンロボットコラボレーションフレームワーク
HRT-MLフレームワークには、ハイレベルで低頻度な戦略ガイダンスのためのコーディネータと、サブタスク固有の高周波命令のためのマネージャの2つのコアモジュールが含まれている。
論文 参考訳(メタデータ) (2024-11-26T00:06:47Z) - Robotic warehousing operations: a learn-then-optimize approach to large-scale neighborhood search [84.39855372157616]
本稿では,ワークステーションの注文処理,アイテムポッドの割り当て,ワークステーションでの注文処理のスケジュールを最適化することで,ウェアハウジングにおけるロボット部品対ピッカー操作を支援する。
そこで我々は, 大規模近傍探索を用いて, サブプロブレム生成に対する学習を最適化する手法を提案する。
Amazon Roboticsと共同で、我々のモデルとアルゴリズムは、最先端のアプローチよりも、実用的な問題に対するより強力なソリューションを生み出していることを示す。
論文 参考訳(メタデータ) (2024-08-29T20:22:22Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。
ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する
我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文 参考訳(メタデータ) (2024-06-28T08:28:38Z) - Adaptive In-conversation Team Building for Language Model Agents [33.03550687362213]
複数の大規模言語モデル(LLM)エージェントを活用することは、複雑なタスクに取り組む上で有望なアプローチであることが示されている。
私たちの新しい適応型チーム構築パラダイムは、Captain Agentという新しいエージェント設計を通じて実現された柔軟なソリューションを提供します。
6つの実世界のシナリオに対する包括的な評価は、Captain Agentが既存のマルチエージェントメソッドを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-05-29T18:08:37Z) - Autonomous Workflow for Multimodal Fine-Grained Training Assistants Towards Mixed Reality [28.27036270001756]
この作業は、AIエージェントを詳細にトレーニングするための拡張現実(XR)アプリケーションにシームレスに統合するための自律ワークフローを設計する。
パイロットXR環境におけるLEGOブロック組立のためのマルチモーダルきめ細粒度トレーニングアシスタントのデモンストレーションを行う。
論文 参考訳(メタデータ) (2024-05-16T14:20:30Z) - AUTONODE: A Neuro-Graphic Self-Learnable Engine for Cognitive GUI Automation [0.0]
オンラインニューログラフィック操作と深部探索によるユーザインタフェースの自律的変換
我々のエンジンはエージェントが複雑に理解し実装し、非並列な効率で動的Web環境に適応することを可能にする。
AUTONODEの汎用性と有効性は一連の実験を通じて実証され、様々なWebベースのタスクを管理する能力を強調している。
論文 参考訳(メタデータ) (2024-03-15T10:27:17Z) - Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - HoloAssist: an Egocentric Human Interaction Dataset for Interactive AI
Assistants in the Real World [48.90399899928823]
この研究は、物理的な世界でのタスクを実行することで人間を対話的に導くインテリジェントエージェントを開発するための、より広範な研究努力の一環である。
大規模なエゴセントリックなヒューマンインタラクションデータセットであるHoloAssistを紹介する。
人間のアシスタントがミスを正し、タスク完了手順に介入し、環境に指示を下す方法について、重要な知見を提示する。
論文 参考訳(メタデータ) (2023-09-29T07:17:43Z) - Building Cooperative Embodied Agents Modularly with Large Language
Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文 参考訳(メタデータ) (2023-07-05T17:59:27Z) - RObotic MAnipulation Network (ROMAN) $\unicode{x2013}$ Hybrid
Hierarchical Learning for Solving Complex Sequential Tasks [70.69063219750952]
ロボットマニピュレーションネットワーク(ROMAN)のハイブリッド階層型学習フレームワークを提案する。
ROMANは、行動クローニング、模倣学習、強化学習を統合することで、タスクの汎用性と堅牢な障害回復を実現する。
実験結果から,これらの専門的な操作専門家の組織化と活性化により,ROMANは高度な操作タスクの長いシーケンスを達成するための適切なシーケンシャルなアクティベーションを生成することがわかった。
論文 参考訳(メタデータ) (2023-06-30T20:35:22Z) - Improving Knowledge Extraction from LLMs for Task Learning through Agent
Analysis [4.055489363682198]
大規模言語モデル(LLM)は、タスク学習の知識源として大きな可能性を秘めている。
プロンプト工学は、LLMから知識を引き出すのに有効であることが示されているが、同時に、新しいタスクを具現化したエージェント学習のための、適切な、状況に根ざした知識を得るには不十分である。
本稿では,認知エージェントアプローチであるSTARSについて述べる。これは,迅速なエンジニアリングを拡張し,その制限を緩和し,エージェントがネイティブ言語能力,具体化,環境,ユーザ嗜好に適合する新たなタスク知識を取得できるようにする。
論文 参考訳(メタデータ) (2023-06-11T20:50:14Z) - Improving Grounded Language Understanding in a Collaborative Environment
by Interacting with Agents Through Help Feedback [42.19685958922537]
我々は、人間とAIのコラボレーションは対話的であり、人間がAIエージェントの作業を監視し、エージェントが理解し活用できるフィードバックを提供するべきだと論じている。
本研究では, IGLUコンペティションによって定義された課題である, マイニングクラフトのような世界における対話型言語理解タスクを用いて, これらの方向を探索する。
論文 参考訳(メタデータ) (2023-04-21T05:37:59Z) - CAMEL: Communicative Agents for "Mind" Exploration of Large Language
Model Society [58.04479313658851]
本稿では,コミュニケーションエージェント間の自律的協調を支援するスケーラブルな手法の構築の可能性について検討する。
本稿では,ロールプレイングという新しいコミュニケーションエージェントフレームワークを提案する。
コントリビューションには、新しいコミュニケーティブエージェントフレームワークの導入、マルチエージェントシステムの協調行動や能力を研究するためのスケーラブルなアプローチの提供などが含まれます。
論文 参考訳(メタデータ) (2023-03-31T01:09:00Z) - A Unified Architecture for Dynamic Role Allocation and Collaborative
Task Planning in Mixed Human-Robot Teams [0.0]
任意のサイズの混合ロボットチームにおいて,動的役割割り当てと協調作業計画のための新しいアーキテクチャを提案する。
このアーキテクチャは、動作木(BT)に基づく集中型リアクティブかつモジュール型タスク非依存の計画手法を基盤としている。
MILPコストとして使用されるさまざまなメトリクスにより、アーキテクチャはコラボレーションの様々な側面を好むことができる。
論文 参考訳(メタデータ) (2023-01-19T12:30:56Z) - Towards a Multi-purpose Robotic Nursing Assistant [0.0]
多目的知的看護支援ロボットシステム(MINA)は、患者に歩行支援を提供し、使い易く直感的なグラフィカルユーザインタフェース(GUI)で遠隔操作を行う。
本稿では,現在最先端の手法を改良した歩行支援タスクの予備的結果を提示し,遠隔操作のためのGUIについて述べる。
論文 参考訳(メタデータ) (2021-06-07T15:00:12Z) - Towards an AI assistant for human grid operators [59.535699822923]
電力システムは、デジタル時代の運用がより複雑になっている。
人間のオペレーターがより多くの情報を扱う必要があるため、リアルタイムの意思決定はますます困難になっている。
より統一的でインタラクティブなフレームワークの下で、ヒューマンマシンインターフェースを再考する必要がある。
論文 参考訳(メタデータ) (2020-12-03T16:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。