論文の概要: Egocentric Co-Pilot: Web-Native Smart-Glasses Agents for Assistive Egocentric AI
- arxiv url: http://arxiv.org/abs/2603.01104v1
- Date: Sun, 01 Mar 2026 13:43:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.514079
- Title: Egocentric Co-Pilot: Web-Native Smart-Glasses Agents for Assistive Egocentric AI
- Title(参考訳): Egocentric Co-Pilot: 補助的Egocentric AIのためのWebネイティブスマートグラスエージェント
- Authors: Sicheng Yang, Yukai Huang, Weitong Cai, Shitong Sun, Fengyi Fang, You He, Yiqiao Xie, Jiankang Deng, Hang Zhang, Jifei Song, Zhensong Zhang,
- Abstract要約: スマートグラス上で動作するWebネイティブなニューロシンボリックフレームワークであるEgocentric Co-Pilotを紹介します。
認識、推論、Webツールのツールボックスを編成するために、LLM(Large Language Model)を使用します。
EgolifeとHD-EPICの実験は、競争力や最先端のエゴセントリックQAパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 56.98603185789977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What if accessing the web did not require a screen, a stable desk, or even free hands? For people navigating crowded cities, living with low vision, or experiencing cognitive overload, smart glasses coupled with AI agents could turn the web into an always-on assistive layer over daily life. We present Egocentric Co-Pilot, a web-native neuro-symbolic framework that runs on smart glasses and uses a Large Language Model (LLM) to orchestrate a toolbox of perception, reasoning, and web tools. An egocentric reasoning core combines Temporal Chain-of-Thought with Hierarchical Context Compression to support long-horizon question answering and decision support over continuous first-person video, far beyond a single model's context window. Additionally, a lightweight multimodal intent layer maps noisy speech and gaze into structured commands. We further implement and evaluate a cloud-native WebRTC pipeline integrating streaming speech, video, and control messages into a unified channel for smart glasses and browsers. In parallel, we deploy an on-premise WebSocket baseline, exposing concrete trade-offs between local inference and cloud offloading in terms of latency, mobility, and resource use. Experiments on Egolife and HD-EPIC demonstrate competitive or state-of-the-art egocentric QA performance, and a human-in-the-loop study on smart glasses shows higher task completion and user satisfaction than leading commercial baselines. Taken together, these results indicate that web-connected egocentric co-pilots can be a practical path toward more accessible, context-aware assistance in everyday life. By grounding operation in web-native communication primitives and modular, auditable tool use, Egocentric Co-Pilot offers a concrete blueprint for assistive, always-on web agents that support education, accessibility, and social inclusion for people who may benefit most from contextual, egocentric AI.
- Abstract(参考訳): もしウェブにアクセスするのにスクリーンも机も無料の手も必要ないとしたらどうだろう?
混雑した都市をナビゲートしたり、視力の低い生活をしたり、認知的過負荷を経験したりする人々にとって、スマートグラスとAIエージェントが組み合わされば、ウェブは日々の生活を常に支援する層に変わるだろう。
我々は、スマートグラス上で動作するWebネイティブなニューロシンボリックフレームワークであるEgocentric Co-Pilotを紹介し、Large Language Model(LLM)を使用して、認識、推論、Webツールのツールボックスを編成する。
エゴセントリックな推論コアは、Temporal Chain-of-ThoughtとHierarchical Context Compressionを組み合わせることで、単一のモデルのコンテキストウィンドウを超えて、連続した1人称ビデオよりも長い水平質問応答と意思決定サポートをサポートする。
さらに、軽量なマルチモーダルインテント層がノイズの多い音声をマッピングし、構造化されたコマンドを見つめる。
さらに、スマートグラスとブラウザ用の統一チャネルに、ストリーミング音声、ビデオ、制御メッセージを統合したクラウドネイティブWebRTCパイプラインを実装し、評価する。
並行して、オンプレミスのWebSocketベースラインをデプロイし、レイテンシ、モビリティ、リソース使用の観点から、ローカル推論とクラウドオフロードの間の具体的なトレードオフを明らかにします。
EgolifeとHD-EPICの実験は、競争力や最先端のエゴセントリックなQAパフォーマンスを示しており、スマートグラスに関する人間-イン・ザ・ループ研究は、主要な商用ベースラインよりも高いタスク完了とユーザ満足度を示している。
これらの結果は、Webに接続されたエゴセントリックなコパイロットが、日常生活においてよりアクセスしやすく、文脈に配慮した支援への実践的な道のりであることを示唆している。
Egocentric Co-Pilotは、Webネイティブなコミュニケーションプリミティブとモジュラーで監査可能なツールの使用を基盤として、コンテキスト中心のAIから最も恩恵を受ける可能性のある人々のために、教育、アクセシビリティ、ソーシャルインクルージョンをサポートする、支援的で常時オンのWebエージェントのための具体的な青写真を提供する。
関連論文リスト
- Agentic Very Long Video Understanding [39.34545320553102]
EGAgentはエンティティシーングラフを中心とした強化されたエージェントフレームワークで、時間とともに人、場所、オブジェクト、それらの関係を表現する。
提案システムは,これらのグラフに対する構造化検索と推論のためのツールと,視覚と音声のハイブリッド検索機能を備えており,詳細な,横断的,時間的に整合した推論を可能にする。
EgoLifeQA と Video-MME (Long) のデータセットから,EgoLifeQA (57.5%) の最先端性能と,複雑な長手ビデオ理解タスクにおける Video-MME (74.1%) の競合性能が得られた。
論文 参考訳(メタデータ) (2026-01-26T05:20:47Z) - EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT [56.24624833924252]
EgoThinkerは、時間的連鎖管理と2段階の学習カリキュラムを通じて、堅牢なエゴセントリック推論能力を備えたMLを支援するフレームワークである。
EgoThinkerは、複数のエゴセントリックなベンチマークで既存のメソッドよりも優れており、微粒な時間的ローカライゼーションタスクで大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-27T17:38:17Z) - Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence [109.32705135051486]
Embodied Web Agentsは、エンボディメントとWebスケール推論を流動的にブリッジする、AIエージェントのための新しいパラダイムである。
多様なタスクスイートを含むEmbodied Web Agents Benchmarkをリリースする。
その結果、最先端のAIシステムと人間の能力の間には、大きなパフォーマンスのギャップが浮かび上がっている。
論文 参考訳(メタデータ) (2025-06-18T17:58:17Z) - EgoM2P: Egocentric Multimodal Multitask Pretraining [55.259234688003545]
大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。
EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
論文 参考訳(メタデータ) (2025-06-09T15:59:25Z) - Vinci: A Real-time Embodied Smart Assistant based on Egocentric Vision-Language Model [49.90916095152366]
我々は、エゴセントリックな視覚言語モデルに基づいて構築されたリアルタイムエンボディ型スマートアシスタントであるVinciを紹介する。
ヴィンチは「常に」モードで動作し、環境を継続的に観察してシームレスな相互作用と補助を提供する。
我々は、アップロードされたビデオをテストするためのデモWebプラットフォームとともに、デバイス開発のための完全な実装をリリースする。
論文 参考訳(メタデータ) (2024-12-30T16:57:05Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - Embodied AI-Driven Operation of Smart Cities: A Concise Review [3.441021278275805]
Embodied AIは、周囲の環境とのインタラクションを通じて学ぶことに焦点を当てている。
さまざまなアルゴリズム、アプローチ、ソリューションとともに、その定義、その特性、そして現在の成果を概観する。
そして、利用可能なシミュレーターと3D対話可能なデータベースを探索し、この分野の研究を可能とします。
論文 参考訳(メタデータ) (2021-08-22T19:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。