論文の概要: VisionClaw: Always-On AI Agents through Smart Glasses
- arxiv url: http://arxiv.org/abs/2604.03486v2
- Date: Wed, 08 Apr 2026 04:29:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 14:06:04.996787
- Title: VisionClaw: Always-On AI Agents through Smart Glasses
- Title(参考訳): VisionClaw:スマートグラスを使ったAIエージェント
- Authors: Xiaoan Liu, DaeHo Lee, Eric J Gonzalez, Mar Gonzalez-Franco, Ryo Suzuki,
- Abstract要約: 私たちは、生きた自我中心の認識とエージェントタスクの実行を統合する、常時オンのウェアラブルAIエージェントであるVisionClawを紹介します。
Meta Ray-Banスマートグラス上で動作するVisionClawは、現実のコンテキストを継続的に認識し、その場で音声駆動のアクション開始とデリゲートを可能にする。
- 参考スコア(独自算出の注目度): 9.735400874849178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present VisionClaw, an always-on wearable AI agent that integrates live egocentric perception with agentic task execution. Running on Meta Ray-Ban smart glasses, VisionClaw continuously perceives real-world context and enables in-situ, speech-driven action initiation and delegation via OpenClaw AI agents. Therefore, users can directly execute tasks through the smart glasses, such as adding real-world objects to an Amazon cart, generating notes from physical documents, receiving meeting briefings on the go, creating events from posters, or controlling IoT devices. We evaluate VisionClaw through a controlled laboratory study (N=12) and a longitudinal deployment study (N=5). Results show that integrating perception and execution enables faster task completion and reduces interaction overhead compared to non-always-on and non-agent baselines. Beyond performance gains, deployment findings reveal a shift in interaction: tasks are initiated opportunistically during ongoing activities, and execution is increasingly delegated rather than manually controlled. These results suggest a new paradigm for wearable AI agents, where perception and action are continuously coupled to support situated, hands-free interaction.
- Abstract(参考訳): 私たちは、生きた自我中心の認識とエージェントタスクの実行を統合する、常時オンのウェアラブルAIエージェントであるVisionClawを紹介します。
Meta Ray-Banスマートグラス上で動作するVisionClawは、現実のコンテキストを継続的に認識し、OpenClaw AIエージェントを介して、その場で音声駆動のアクション開始とデリゲートを可能にする。
そのためユーザは、Amazonカートに現実世界のオブジェクトを追加したり、物理的なドキュメントからメモを生成したり、行き先での会議ブリーフィングを受信したり、ポスターからイベントを作成したり、IoTデバイスを制御するといったスマートグラスを通じてタスクを直接実行することができる。
対照実験 (N=12) と縦配置 (N=5) によるVisionClawの評価を行った。
その結果、知覚と実行の統合により、タスクの完了がより早くなり、非常時ベースラインや非エージェントベースラインに比べて相互作用のオーバーヘッドが軽減されることがわかった。
タスクは進行中のアクティビティ中に不定期に起動され、実行は手動で制御されるのではなく、委譲されるようになっています。
これらの結果は、認識と行動が継続的に結合され、位置するハンズフリーなインタラクションをサポートするウェアラブルAIエージェントの新しいパラダイムを示唆している。
関連論文リスト
- Egocentric Co-Pilot: Web-Native Smart-Glasses Agents for Assistive Egocentric AI [56.98603185789977]
スマートグラス上で動作するWebネイティブなニューロシンボリックフレームワークであるEgocentric Co-Pilotを紹介します。
認識、推論、Webツールのツールボックスを編成するために、LLM(Large Language Model)を使用します。
EgolifeとHD-EPICの実験は、競争力や最先端のエゴセントリックQAパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-03-01T13:43:04Z) - Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning [69.71072181304066]
本稿では,擬似ヒューマノイドを用いた視覚駆動全身制御フレームワークであるPerceptive Dexterous Control (PDC)を紹介する。
PDCは、タスク仕様のためのエゴセントリックなビジョンのみを運用し、ビジュアルキューによるオブジェクト検索、ターゲット配置、スキル選択を可能にする。
強化学習によるスクラッチからのトレーニングは,能動探索などの創発的な行動を引き起こす可能性があることを示す。
論文 参考訳(メタデータ) (2025-05-18T07:33:31Z) - Reasoning in visual navigation of end-to-end trained agents: a dynamical systems approach [23.52028824411467]
本研究では,物理ロボットを用いた実環境におけるヌンペプソデスのナビゲーションエピソードに関する大規模実験を行った。
エンドツーエンドのトレーニングから生じる推論のタイプを分析します。
本稿では,エージェントが学習した値関数が長期計画に関連があることをポストホック分析で示す。
論文 参考訳(メタデータ) (2025-03-11T11:16:47Z) - Object-Centric Latent Action Learning [70.3173534658611]
本稿では,画素ではなくオブジェクトを対象とする,オブジェクト中心の潜在動作学習フレームワークを提案する。
我々は、自己教師対象中心の事前学習を利用して、行動関連や注意をそらすダイナミクスを歪めている。
その結果, 物体中心の事前学習は, トラクタの負の効果を50%軽減することがわかった。
論文 参考訳(メタデータ) (2025-02-13T11:27:05Z) - YETI (YET to Intervene) Proactive Interventions by Multimodal AI Agents in Augmented Reality Tasks [16.443149180969776]
Augmented Reality (AR)ヘッドウェアは、日々の手続き的なタスクを解く際のユーザエクスペリエンスを一意に改善することができる。
このようなAR機能は、AIエージェントがユーザーのマルチモーダル機能に関連するアクションを見て耳を傾けるのに役立つ。
一方、AIエージェントのプロアクティビティは、人間が観察されたタスクのミスを検出し、修正するのに役立つ。
論文 参考訳(メタデータ) (2025-01-16T08:06:02Z) - Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations [77.31328397965653]
Ag2Manip(Agent-Agnostic representations for Manipulation)は,2つの重要なイノベーションを通じて課題を克服するフレームワークである。
人間の操作ビデオから派生した新しいエージェント非依存の視覚表現であり、その具体的特徴は一般化性を高めるために隠蔽された。
ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化し、エンドエフェクタとオブジェクト間の重要な相互作用を強調するエージェント非依存のアクション表現。
論文 参考訳(メタデータ) (2024-04-26T16:40:17Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。