論文の概要: Pro$^2$Assist: Continuous Step-Aware Proactive Assistance with Multimodal Egocentric Perception for Long-Horizon Procedural Tasks
- arxiv url: http://arxiv.org/abs/2605.04227v1
- Date: Tue, 05 May 2026 19:12:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.502013
- Title: Pro$^2$Assist: Continuous Step-Aware Proactive Assistance with Multimodal Egocentric Perception for Long-Horizon Procedural Tasks
- Title(参考訳): Pro$2$Assist: 長距離手続きタスクに対するマルチモーダル・エゴセントリック・パーセプションを用いた連続ステップアウェア・プロアクティブ・アシスト
- Authors: Lilin Xu, Bufang Yang, Siyang Jiang, Kaiwei Liu, Kaiyuan Hou, Yuang Fan, Hongkai Chen, Zhenyu Yan, Xiaofan Jiang,
- Abstract要約: Pro$2$Assistは、手続きタスクのためのステップアウェアなプロアクティブアシスタントである。
Pro$2$Assistは、タイムリーなアシストを提供するために、ユーザの進化状態に関するきめ細かいタスクの進捗と理由を追跡する。
Pro$2$Assistを、公開ソースからキュレートされたデータセットと、テストベッドでARメガネで収集された実世界のデータセットを用いて評価した。
- 参考スコア(独自算出の注目度): 3.0877037234777944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Procedural tasks with multiple ordered steps are ubiquitous in daily life. Recent advances in multimodal large language models (MLLMs) have enabled personal assistants that support daily activities. However, existing systems primarily provide reactive guidance triggered by user queries, or limited proactive assistance for isolated short-term events rather than long-horizon procedural tasks. In this work, we introduce Pro$^2$Assist, a step-aware proactive assistant that continuously tracks fine-grained task progress and reasons over the user's evolving state to provide timely assistance throughout tasks. Pro$^2$Assist leverages multimodal data from augmented reality (AR) glasses to achieve motion-based perception. It then extracts step-oriented procedural context from multi-scale temporal dynamics and task-specific expert knowledge. Based on both sensory input and procedural context, Pro$^2$Assist performs continuous reasoning to infer user needs and display timely assistance on AR glasses. We evaluate Pro$^2$Assist using a dataset curated from public sources and a real-world dataset collected on our testbed with AR glasses. Extensive evaluations show that Pro$^2$Assist outperforms the best-performing baselines by over 21% in procedural action understanding accuracy, and it achieves up to 2.29x the proactive timing accuracy of baselines. A user study with 20 participants further shows that 90% find Pro$^2$Assist useful, indicating its effectiveness for real-world procedural assistance.
- Abstract(参考訳): 複数の順序のステップを持つ手続き的なタスクは、日常生活においてユビキタスである。
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、日々の活動を支援するパーソナルアシスタントを可能にしている。
しかし、既存のシステムでは、ユーザクエリによって引き起こされるリアクティブなガイダンスや、長期的な手続きタスクではなく、孤立した短期イベントに対する限定的なプロアクティブなアシストが主に提供されている。
本稿では,段階認識型プロアクティブアシスタントPro$2$Assistを紹介する。
Pro$2$Assistは、拡張現実(AR)メガネのマルチモーダルデータを利用して、モーションベースの知覚を実現する。
その後、多スケールの時間力学とタスク固有の専門知識からステップ指向の手続きコンテキストを抽出する。
Pro$2$Assistは、感覚入力と手続きコンテキストの両方に基づいて、ユーザニーズを推論し、ARメガネにタイムリーなアシストを表示するための継続的推論を行う。
Pro$2$Assistの評価には,公開資料から収集したデータセットと,テストベッドにARメガネで収集した実世界のデータセットを用いて行った。
Pro$2$Assistは、手続き的行動理解の精度が21%以上向上し、ベースラインの確率的タイミング精度が2.29倍に達することが広く評価されている。
さらに,20名を対象にしたユーザ調査では,Pro$2$Assistが有効であることが90%で示され,現実の手続き支援に有効であることが示唆された。
関連論文リスト
- OSExpert: Computer-Use Agents Learning Professional Skills via Exploration [55.660669638732024]
汎用コンピュータ利用エージェントは、人間の専門家ほど役に立たない。
本研究では,環境の単位関数を探索し,検証するための深度優先探索アルゴリズムを提案する。
エージェントは、合成タスクのカリキュラムを自己構築するために、ユニットスキル間の構成性を利用する。
論文 参考訳(メタデータ) (2026-03-09T05:27:56Z) - RRO: LLM Agent Optimization Through Rising Reward Trajectories [52.579992804584464]
大規模言語モデル (LLM) は様々なタスクにおいて異常な性能を示した。
実際には、エージェントは特定の重要なステップの結果に敏感で、タスクを失敗する可能性がある。
この問題を軽減するために,Reward Rising Optimization (RRO)を提案する。
論文 参考訳(メタデータ) (2025-05-27T05:27:54Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - Understanding the Multi-modal Prompts of the Pre-trained Vision-Language
Model [15.828023370166411]
我々は、以下の質問をすることで、マルチモーダルプロンプトを直接分析する。
$(i)$ 学習したマルチモーダルはどのように認識性能を向上させるのか?
$(ii)$ マルチモーダルプロンプトは何を学習しますか?
論文 参考訳(メタデータ) (2023-12-18T04:49:03Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Active Acquisition for Multimodal Temporal Data: A Challenging
Decision-Making Task [13.291343999247898]
我々は、マルチモーダル時間データ(A2MT)のアクティブな獲得と呼ばれる挑戦的な意思決定タスクを導入する。
我々は,取得する入力のモダリティを積極的に選択し,取得コストと予測性能をトレードオフするエージェントを学習することを目的とする。
A2MTの応用は、医療、ロボティクス、金融といった分野に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-11-09T17:16:36Z) - On Steering Multi-Annotations per Sample for Multi-Task Learning [79.98259057711044]
マルチタスク学習の研究はコミュニティから大きな注目を集めている。
目覚ましい進歩にもかかわらず、異なるタスクを同時に学習するという課題はまだ検討されていない。
従来の研究は、異なるタスクから勾配を修正しようとするが、これらの手法はタスク間の関係の主観的な仮定を与え、修正された勾配はより正確でないかもしれない。
本稿では,タスク割り当てアプローチによってこの問題に対処する機構であるタスク割当(STA)を紹介し,各サンプルをランダムにタスクのサブセットに割り当てる。
さらなる進展のために、我々は全てのタスクを反復的に割り当てるためにInterleaved Task Allocation(ISTA)を提案する。
論文 参考訳(メタデータ) (2022-03-06T11:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。