論文の概要: EgoTrigger: Toward Audio-Driven Image Capture for Human Memory Enhancement in All-Day Energy-Efficient Smart Glasses
- arxiv url: http://arxiv.org/abs/2508.01915v1
- Date: Sun, 03 Aug 2025 20:51:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.115916
- Title: EgoTrigger: Toward Audio-Driven Image Capture for Human Memory Enhancement in All-Day Energy-Efficient Smart Glasses
- Title(参考訳): EgoTrigger: 一日中エネルギー効率の良いスマートグラスにおける人間の記憶機能向上のためのオーディオ駆動型イメージキャプチャ
- Authors: Akshay Paruchuri, Sinan Hersek, Lavisha Aggarwal, Qiao Yang, Xin Liu, Achin Kulshrestha, Andrea Colaco, Henry Fuchs, Ishan Chatterjee,
- Abstract要約: EgoTriggerはマイクからのオーディオキューを使用して、電力集約カメラを選択的に起動する。
EgoTriggerは、平均で54%のフレームを使用でき、両方の電力消費検知コンポーネントのエネルギーを大幅に節約できる。
我々は、このコンテキスト認識トリガー戦略が、エネルギー効率が高く、機能的なスマートグラスを一日中使えるようにするための有望な方向であると考えている。
- 参考スコア(独自算出の注目度): 9.926912962527958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: All-day smart glasses are likely to emerge as platforms capable of continuous contextual sensing, uniquely positioning them for unprecedented assistance in our daily lives. Integrating the multi-modal AI agents required for human memory enhancement while performing continuous sensing, however, presents a major energy efficiency challenge for all-day usage. Achieving this balance requires intelligent, context-aware sensor management. Our approach, EgoTrigger, leverages audio cues from the microphone to selectively activate power-intensive cameras, enabling efficient sensing while preserving substantial utility for human memory enhancement. EgoTrigger uses a lightweight audio model (YAMNet) and a custom classification head to trigger image capture from hand-object interaction (HOI) audio cues, such as the sound of a drawer opening or a medication bottle being opened. In addition to evaluating on the QA-Ego4D dataset, we introduce and evaluate on the Human Memory Enhancement Question-Answer (HME-QA) dataset. Our dataset contains 340 human-annotated first-person QA pairs from full-length Ego4D videos that were curated to ensure that they contained audio, focusing on HOI moments critical for contextual understanding and memory. Our results show EgoTrigger can use 54% fewer frames on average, significantly saving energy in both power-hungry sensing components (e.g., cameras) and downstream operations (e.g., wireless transmission), while achieving comparable performance on datasets for an episodic memory task. We believe this context-aware triggering strategy represents a promising direction for enabling energy-efficient, functional smart glasses capable of all-day use -- supporting applications like helping users recall where they placed their keys or information about their routine activities (e.g., taking medications).
- Abstract(参考訳): 日中スマートグラスは、日々の生活で前例のない支援のために、コンテキストを連続的に感知できるプラットフォームとして出現する可能性が高い。
しかし、連続センシングの実行中に人間のメモリ拡張に必要なマルチモーダルAIエージェントを統合することは、一日中の使用において大きなエネルギー効率の課題となる。
このバランスを達成するには、インテリジェントでコンテキスト対応のセンサー管理が必要です。
私たちのアプローチであるEgoTriggerは、マイクロホンからのオーディオキューを活用して、選択的に電力集中型カメラを起動し、人間のメモリ拡張のための実質的な有用性を保ちながら、効率的なセンシングを可能にします。
EgoTriggerは、軽量オーディオモデル(YAMNet)とカスタムな分類ヘッドを使用して、引き出しの開口音やボトルが開くなど、手動オブジェクト間相互作用(HOI)オーディオキューからイメージキャプチャーをトリガーする。
QA-Ego4Dデータセットの評価に加えて,Human Memory Enhancement Question-Answer(HME-QA)データセットの導入と評価を行った。
我々のデータセットには、フル長のEgo4Dビデオから、人間の注釈付き1対のQAペアが340個含まれており、それらが音声を含むことを保証するために、文脈的理解と記憶に不可欠なHOIモーメントに焦点を当てている。
以上の結果から,EgoTriggerは平均で54%少ないフレームを使用でき,電力消費検知素子(例えばカメラ)と下流操作(例えば無線通信)の双方で省エネが可能であり,エピソディックメモリタスクのデータセット上で同等の性能を実現していることがわかった。
このコンテキスト対応トリガ戦略は、エネルギー効率が高く、機能的なスマートグラスを一日中使えるようにするための有望な方向であると考えています。
関連論文リスト
- Ego4o: Egocentric Human Motion Capture and Understanding from Multi-Modal Input [62.51283548975632]
この研究は、VR/ARヘッドセット、スマートグラス、携帯電話、スマートウォッチなどの消費者向けウェアラブルデバイスを使用して、人間の動きを追跡し、理解することに焦点を当てている。
Ego4o(o for omni)は,マルチモーダルなエゴセントリックインプットから人間の動きを同時に捉え,理解するための新しいフレームワークである。
論文 参考訳(メタデータ) (2025-04-11T11:18:57Z) - EgoLife: Towards Egocentric Life Assistant [60.51196061794498]
我々はEgoLifeを紹介した。EgoLifeは、AIを使ったウェアラブルグラスを通じて、個人の効率を向上するエゴセントリックなライフアシスタントを開発するプロジェクトだ。
我々は、6人の参加者が1週間一緒に暮らし、マルチモーダル・エゴセントリックなビデオキャプチャーにAIグラスを使用して日々の活動を継続的に記録し、同期された3人称ビデオ参照を行う総合的なデータ収集研究を行った。
この取り組みの結果、EgoLifeデータセットは、集中的なアノテーションを備えた300時間のエゴセントリック、対人、マルチビュー、マルチモーダルの日常生活データセットである。
私たちはEgoLifeQAを紹介します。EgoLifeQAは、長いコンテキスト、ライフ指向の質問応答タスクのスイートで、提供するように設計されています。
論文 参考訳(メタデータ) (2025-03-05T18:54:16Z) - Embodied VideoAgent: Persistent Memory from Egocentric Videos and Embodied Sensors Enables Dynamic Scene Understanding [21.619878862869754]
Embodied VideoAgentは、エゴセントリックビデオとエンボディインプットの両方からシーンメモリを構築する。
我々は,ロボット操作において,具体的相互作用の生成や知覚など,様々なAIタスクにおいてその可能性を実証した。
論文 参考訳(メタデータ) (2024-12-31T09:22:38Z) - Online Episodic Memory Visual Query Localization with Egocentric Streaming Object Memory [17.305576093380168]
モデルがオンラインストリームを処理するタスクであるVisual Online 2D(OVQ2D)を導入し、各フレームを一度だけ観察し、完全なビデオ履歴ではなく、コンパクトなメモリを用いてオブジェクトのローカライゼーションを検索する。
他のオンラインアプローチよりもESOMビデオの方が優れていることを実証していますが、OVQ2Dは依然として挑戦的であり、最高のパフォーマンスはわずか4%の成功です。
論文 参考訳(メタデータ) (2024-11-25T21:07:25Z) - Predictive Temporal Attention on Event-based Video Stream for
Energy-efficient Situation Awareness [5.541459858161597]
本稿では,視覚事象を適切に予測できない場合にのみ,カメラ出力を減速させ,注意を払うための時間的注意機構を提案する。
本研究では,カメラとプロセッサ間のデータ通信の46.7%を削減し,プロセッサの43.8%を削減できることを示す。
論文 参考訳(メタデータ) (2024-02-14T04:34:48Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - Encode-Store-Retrieve: Augmenting Human Memory through Language-Encoded Egocentric Perception [19.627636189321393]
メモリ拡張のための有望な道は、エゴセントリックなビデオをキャプチャして保存するために、拡張現実のヘッドマウントディスプレイを使用することである。
現在の技術では、大量のデータを効率的にエンコードして保存する能力が欠けている。
本稿では,ビデオデータの自然言語エンコーディングを活用し,ベクトルデータベースに格納するメモリ拡張エージェントを提案する。
論文 参考訳(メタデータ) (2023-08-10T18:43:44Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:52:58Z) - Episodic Memory Question Answering [55.83870351196461]
我々は、人間がAIエージェントと対話し、質問することで拡張現実デバイスを駆動するシナリオを思い描いている。
成功するためには、エゴAIアシスタントはセマンティックにリッチで効率的なシーン記憶を構築する必要がある。
EMQA(Episodic Memory Question Answering)という新しいタスクを紹介します。
私たちが選択したエピソードシーンメモリは、非常に競争力のあるベースラインのホストであると同時に、そのタスクに対して、単純でオフザセンシティブなソリューションよりも優れています。
論文 参考訳(メタデータ) (2022-05-03T17:28:43Z) - Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal
Attention [0.9668407688201357]
センサを付加したエゴセントリック・ビデオキャプションの新しい課題を提案する。
我々は、ウェアラブルセンサーデータを補助情報として利用し、自我中心視における固有の問題を緩和する。
論文 参考訳(メタデータ) (2021-09-07T09:22:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。