論文の概要: YETI (YET to Intervene) Proactive Interventions by Multimodal AI Agents in Augmented Reality Tasks
- arxiv url: http://arxiv.org/abs/2501.09355v1
- Date: Thu, 16 Jan 2025 08:06:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:11:06.453264
- Title: YETI (YET to Intervene) Proactive Interventions by Multimodal AI Agents in Augmented Reality Tasks
- Title(参考訳): 拡張現実タスクにおけるマルチモーダルAIエージェントによるYETI(YET to Intervene)積極的な介入
- Authors: Saptarashmi Bandyopadhyay, Vikas Bahirwani, Lavisha Aggarwal, Bhanu Guda, Lin Li, Andrea Colaco,
- Abstract要約: Augmented Reality (AR)ヘッドウェアは、日々の手続き的なタスクを解く際のユーザエクスペリエンスを一意に改善することができる。
このようなAR機能は、AIエージェントがユーザーのマルチモーダル機能に関連するアクションを見て耳を傾けるのに役立つ。
一方、AIエージェントのプロアクティビティは、人間が観察されたタスクのミスを検出し、修正するのに役立つ。
- 参考スコア(独自算出の注目度): 16.443149180969776
- License:
- Abstract: Multimodal AI Agents are AI models that have the capability of interactively and cooperatively assisting human users to solve day-to-day tasks. Augmented Reality (AR) head worn devices can uniquely improve the user experience of solving procedural day-to-day tasks by providing egocentric multimodal (audio and video) observational capabilities to AI Agents. Such AR capabilities can help AI Agents see and listen to actions that users take which can relate to multimodal capabilities of human users. Existing AI Agents, either Large Language Models (LLMs) or Multimodal Vision-Language Models (VLMs) are reactive in nature, which means that models cannot take an action without reading or listening to the human user's prompts. Proactivity of AI Agents on the other hand can help the human user detect and correct any mistakes in agent observed tasks, encourage users when they do tasks correctly or simply engage in conversation with the user - akin to a human teaching or assisting a user. Our proposed YET to Intervene (YETI) multimodal agent focuses on the research question of identifying circumstances that may require the agent to intervene proactively. This allows the agent to understand when it can intervene in a conversation with human users that can help the user correct mistakes on tasks, like cooking, using AR. Our YETI Agent learns scene understanding signals based on interpretable notions of Structural Similarity (SSIM) on consecutive video frames. We also define the alignment signal which the AI Agent can learn to identify if the video frames corresponding to the user's actions on the task are consistent with expected actions. These signals are used by our AI Agent to determine when it should proactively intervene. We compare our results on the instances of proactive intervention in the HoloAssist multimodal benchmark for an expert agent guiding a user to complete procedural tasks.
- Abstract(参考訳): マルチモーダルAIエージェント(Multimodal AI Agent)は、対話的かつ協調的に人間のユーザを支援し、日々のタスクを解決できるAIモデルである。
Augmented Reality(AR)ヘッドウェアは、AIエージェントにエゴセントリックなマルチモーダル(オーディオとビデオ)観察機能を提供することで、手続き的な日々のタスクを解決するというユーザエクスペリエンスをユニークに向上させることができる。
このようなAR機能は、AIエージェントがユーザーのマルチモーダル機能に関連するアクションを見て耳を傾けるのに役立つ。
既存のAIエージェント、LLM(Large Language Models)またはマルチモーダルビジョンランゲージモデル(Multimodal Vision-Language Models、VLM)は、本質的にはリアクティブである。
一方、AIエージェントのプロアクティビティは、人間が観察されたタスクのミスを検出し、修正するのに役立つ。
提案するYET to Intervene(YETI)マルチモーダルエージェントは,エージェントが積極的に介入する必要のある状況を特定するための研究課題に焦点を当てている。
これにより、エージェントは、ユーザーが料理やARといったタスクの間違いを訂正するのに役立つ人間のユーザーとの会話にいつ介入できるかを理解することができる。
我々のYETIエージェントは、連続するビデオフレーム上の構造類似性(SSIM)の解釈可能な概念に基づいて、シーン理解信号を学ぶ。
また、AIエージェントがタスク上のユーザのアクションに対応するビデオフレームが期待されたアクションと一致しているかどうかを識別するアライメント信号を定義する。
これらの信号は、AIエージェントによって、いつ積極的に介入すべきかを決定するために使用されます。
本稿では,HoloAssistマルチモーダルベンチマークにおけるプロアクティブ介入の事例について,ユーザに対して手続き的タスクの完了を指示する専門家エージェントとの比較を行った。
関連論文リスト
- ChatCollab: Exploring Collaboration Between Humans and AI Agents in Software Teams [1.3967206132709542]
ChatCollabの斬新なアーキテクチャは、エージェント(人間またはAI)が任意の役割でコラボレーションに参加することを可能にする。
ソフトウェアエンジニアリングをケーススタディとして使用することで、私たちのAIエージェントが彼らの役割と責任をうまく特定できることが分かりました。
ソフトウェア開発のための従来の3つのマルチエージェントAIシステムに関連して、ChatCollab AIエージェントはインタラクティブなゲーム開発タスクにおいて、同等またはより良いソフトウェアを生成する。
論文 参考訳(メタデータ) (2024-12-02T21:56:46Z) - Collaborative Instance Navigation: Leveraging Agent Self-Dialogue to Minimize User Input [54.81155589931697]
我々は,ナビゲーション中の動的エージェントと人間との相互作用を考慮したCoIN(Collaborative Instance Navigation)を提案する。
CoINに対処するために,新しいエージェント・ユーザ・インタラクションとUncerTainty Awareness (AIUTA)を提案する。
AIUTAは、最先端のメソッドに対するナビゲーションにおける競合的なパフォーマンスを実現し、ユーザの入力を処理する際の柔軟性を示している。
論文 参考訳(メタデータ) (2024-12-02T08:16:38Z) - CACA Agent: Capability Collaboration based AI Agent [18.84686313298908]
本稿ではCACAエージェント(Capability Collaboration based AI Agent)を提案する。
CACA Agentは、単一のLLMへの依存を減らすだけでなく、AI Agentを実装するための一連のコラボレーティブ機能を統合する。
本稿ではCACAエージェントの動作とアプリケーションシナリオの拡張について説明する。
論文 参考訳(メタデータ) (2024-03-22T11:42:47Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - One Agent Too Many: User Perspectives on Approaches to Multi-agent
Conversational AI [10.825570464035872]
システムユーザビリティとシステムパフォーマンスの両方において,エージェントオーケストレーションを抽象化する上で,ユーザにとって重要な選択肢があることが示される。
人間の選択した回答の1%以内に評価された質の高い応答を提供できることを実証する。
論文 参考訳(メタデータ) (2024-01-13T17:30:57Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Improving Grounded Language Understanding in a Collaborative Environment
by Interacting with Agents Through Help Feedback [42.19685958922537]
我々は、人間とAIのコラボレーションは対話的であり、人間がAIエージェントの作業を監視し、エージェントが理解し活用できるフィードバックを提供するべきだと論じている。
本研究では, IGLUコンペティションによって定義された課題である, マイニングクラフトのような世界における対話型言語理解タスクを用いて, これらの方向を探索する。
論文 参考訳(メタデータ) (2023-04-21T05:37:59Z) - Conveying Autonomous Robot Capabilities through Contrasting Behaviour
Summaries [8.413049356622201]
比較行動要約を効率的に生成する適応探索法を提案する。
この結果から,適応探索により,人間がより優れたエージェントを正確に選択できる情報コントラストのシナリオを効果的に特定できることが示唆された。
論文 参考訳(メタデータ) (2023-04-01T18:20:59Z) - Watch-And-Help: A Challenge for Social Perception and Human-AI
Collaboration [116.28433607265573]
我々は、AIエージェントでソーシャルインテリジェンスをテストするための課題であるWatch-And-Help(WAH)を紹介する。
WAHでは、AIエージェントは、人間のようなエージェントが複雑な家庭用タスクを効率的に実行するのを助ける必要がある。
マルチエージェントの家庭環境であるVirtualHome-Socialを構築し、計画と学習ベースのベースラインを含むベンチマークを提供する。
論文 参考訳(メタデータ) (2020-10-19T21:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。