論文の概要: Real Eyes Realize Faster: Gaze Stability and Pupil Novelty for Efficient Egocentric Learning
- arxiv url: http://arxiv.org/abs/2603.04098v1
- Date: Wed, 04 Mar 2026 14:10:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.339543
- Title: Real Eyes Realize Faster: Gaze Stability and Pupil Novelty for Efficient Egocentric Learning
- Title(参考訳): 現実の目はより速く実現する:効率的な自我中心学習のための視線安定性と瞳孔の新規性
- Authors: Ajan Subramanian, Sumukh Bettadapura, Rohan Sathish,
- Abstract要約: 常に自我中心のカメラは、ロボティクス、模倣学習、補助ARのデモとして使われるようになっている。
ウェアラブルデバイスのストレージとバッテリの制約の下では、どのフレームを保持するかは、それらから学ぶ方法と同じくらい重要である。
この知見をDual-Criterion Frame Curatorとして運用し、まず視線品質でフレームをゲートし、その後、瞳孔由来のノベルティで生存者をランク付けする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Always-on egocentric cameras are increasingly used as demonstrations for embodied robotics, imitation learning, and assistive AR, but the resulting video streams are dominated by redundant and low-quality frames. Under the storage and battery constraints of wearable devices, choosing which frames to keep is as important as how to learn from them. We observe that modern eye-tracking headsets provide a continuous, training-free side channel that decomposes into two complementary axes: gaze fixation captures visual stability (quality), while pupil response captures arousal-linked moments (novelty). We operationalize this insight as a Dual-Criterion Frame Curator that first gates frames by gaze quality and then ranks the survivors by pupil-derived novelty. On the Visual Experience Dataset (VEDB), curated frames at 10% budget match the classification performance of the full stream, and naive signal fusion consistently destroys both contributions. The benefit is task-dependent: pupil ranking improves activity recognition, while gaze-only selection already dominates for scene recognition, confirming that the two signals serve genuinely different roles. Our method requires no model inference and operates at capture time, offering a path toward efficient, always-on egocentric data curation.
- Abstract(参考訳): 常に自我中心のカメラは、ロボット工学、模倣学習、補助ARのデモとして使われることが多いが、ビデオストリームは冗長で低品質なフレームによって支配されている。
ウェアラブルデバイスのストレージとバッテリの制約の下では、どのフレームを保持するかは、それらから学ぶ方法と同じくらい重要である。
現代の視線追跡ヘッドセットは、2つの相補的な軸に分解される連続した訓練のないサイドチャネルを提供する: 視線固定は視覚的安定性(品質)を、瞳孔応答は覚醒的リンクモーメント(ノベルティ)を捉えている。
この知見をDual-Criterion Frame Curatorとして運用し、まず視線品質でフレームをゲートし、その後、瞳孔由来のノベルティで生存者をランク付けする。
Visual Experience Dataset (VEDB)では、10%の予算でキュレートされたフレームがフルストリームの分類性能と一致し、シグナル融合が両コントリビューションを継続的に破壊する。
生徒のランク付けは行動認識を改善するが、視線のみの選択はシーン認識に支配的であり、2つの信号が真に異なる役割を果たすことを確認する。
我々の手法はモデル推論を必要とせず、キャプチャ時に動作し、効率的で常時オンのエゴセントリックなデータキュレーションへの道を提供する。
関連論文リスト
- Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - No More Shortcuts: Realizing the Potential of Temporal Self-Supervision [69.59938105887538]
本稿では、フレームレベルの認識タスクではなく、フレームレベルの認識タスクとして、時間的自己監督のより困難な再構築を提案する。
我々は、より困難なフレームレベルのタスクの定式化とショートカットの削除が、時間的自己監督によって学習された特徴の質を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-20T13:20:31Z) - TimeBalance: Temporally-Invariant and Temporally-Distinctive Video
Representations for Semi-Supervised Action Recognition [68.53072549422775]
学生教師による半教師付き学習フレームワークTimeBalanceを提案する。
時間的に不変であり,時間的に異なる教師から知識を抽出する。
提案手法は,3つの動作認識ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-28T19:28:54Z) - SS-VAERR: Self-Supervised Apparent Emotional Reaction Recognition from
Video [61.21388780334379]
この研究は、自己監督的な方法で行われるビデオのみの入力からの明らかな感情的反応の認識に焦点を当てる。
ネットワークは、まず異なる自己教師付きプレテキストタスクで事前訓練され、その後、下流のターゲットタスクで微調整される。
論文 参考訳(メタデータ) (2022-10-20T15:21:51Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。