論文の概要: Towards Stable Self-Supervised Object Representations in Unconstrained Egocentric Video
- arxiv url: http://arxiv.org/abs/2603.13912v1
- Date: Sat, 14 Mar 2026 12:00:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.484659
- Title: Towards Stable Self-Supervised Object Representations in Unconstrained Egocentric Video
- Title(参考訳): 非拘束エゴセントリックビデオにおける安定な自己スーパービジョンオブジェクト表現に向けて
- Authors: Yuting Tan, Xilong Cheng, Yunxiao Qin, Zhengnan Li, Jingjing Zhang,
- Abstract要約: 本研究では,非ラベル付きエゴセントリックビデオから安定したオブジェクト表現を学習するための統合ビジョントランスフォーマーフレームワークを提案する。
EgoViTは「プロトオブジェクト」を共同で発見・安定化することでこの学習プロセスをブートストラップする
EgoViTは、教師なしオブジェクト発見における+8.0%のCorLoc改善と、セマンティックセグメンテーションにおける+4.8%のmIoU改善を実現している。
- 参考スコア(独自算出の注目度): 8.642846048553041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans develop visual intelligence through perceiving and interacting with their environment - a self-supervised learning process grounded in egocentric experience. Inspired by this, we ask how can artificial systems learn stable object representations from continuous, uncurated first-person videos without relying on manual annotations. This setting poses challenges of separating, recognizing, and persistently tracking objects amid clutter, occlusion, and ego-motion. We propose EgoViT, a unified vision Transformer framework designed to learn stable object representations from unlabeled egocentric video. EgoViT bootstraps this learning process by jointly discovering and stabilizing "proto-objects" through three synergistic mechanisms: (1) Proto-object Learning, which uses intra-frame distillation to form discriminative representations; (2) Depth Regularization, which grounds these representations in geometric structure; and (3) Teacher-Filtered Temporal Consistency, which enforces identity over time. This creates a virtuous cycle where initial object hypotheses are progressively refined into stable, persistent representations. The framework is trained end-to-end on unlabeled first-person videos and exhibits robustness to geometric priors of varied origin and quality. On standard benchmarks, EgoViT achieves +8.0% CorLoc improvement in unsupervised object discovery and +4.8% mIoU improvement in semantic segmentation, demonstrating its potential to lay a foundation for robust visual abstraction in embodied intelligence.
- Abstract(参考訳): 人間は、自我中心の体験に基づく自己監督的な学習プロセスである、環境を知覚し、相互作用することで視覚知能を発達させる。
これに触発されて、手動のアノテーションに頼ることなく、連続した未計算のファースト・パーソン・ビデオから安定したオブジェクト表現を学習する方法を尋ねる。
この設定は、乱雑、隠蔽、エゴモーションの中でオブジェクトを分離し、認識し、永続的に追跡するという課題を提起する。
EgoViTは、ラベルなしのエゴセントリックビデオから安定したオブジェクト表現を学習するための統合ビジョントランスフォーマーフレームワークである。
EgoViTはこの学習プロセスを,(1)フレーム内蒸留を用いて識別的表現を形成するプロトオブジェクト学習,(2)これらの表現を幾何学的構造に根ざした深さ正規化,(3)時間とともにアイデンティティを強制する教師・フィルター付き時間一貫性の3つの相乗的メカニズムを通じて,共同で「プロトオブジェクト」の発見と安定化を行うことによって起動する。
これにより、初期オブジェクト仮説が徐々に洗練され、安定で永続的な表現へと発展する活発なサイクルが生まれる。
このフレームワークは、ラベルなしのファースト・パーソン・ビデオでエンドツーエンドに訓練され、様々な起源と品質の幾何学的先行に対して堅牢性を示す。
標準的なベンチマークでは、EgoViTは、教師なしオブジェクト発見における+8.0%のCorLoc改善と、セマンティックセグメンテーションにおける+4.8%のmIoU改善を実現し、エンボディドインテリジェンスにおける堅牢な視覚的抽象化の基礎を築き上げる可能性を示している。
関連論文リスト
- Robust Egocentric Referring Video Object Segmentation via Dual-Modal Causal Intervention [58.05340906967343]
Egocentric Referring Video Object (Ego-RVOS)は、言語クエリで説明されているように、人間のアクションに積極的に関与する特定のオブジェクトを、一人称ビデオに分割することを目的としている。
既存の手法はしばしば苦労し、データセット内の歪んだオブジェクト-アクションのペアリングから急激な相関を学習する。
本稿では,強力なトレーニング済みRVOSをエゴセントリックドメインに適応させるプラグイン因果フレームワークであるCausal-Referring(CERES)を紹介する。
論文 参考訳(メタデータ) (2025-12-30T16:22:14Z) - Temporally Consistent Object-Centric Learning by Contrasting Slots [23.203973564679508]
ビデオオブジェクト中心モデルに対して、新しいオブジェクトレベルの時間的コントラスト損失を導入する。
本手法は学習対象中心表現の時間的一貫性を著しく向上させる。
論文 参考訳(メタデータ) (2024-12-18T19:46:04Z) - Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Learning Object Permanence from Videos via Latent Imaginations [4.293591000527724]
スロットベースの自己回帰型深層学習システム、ループした位置と個人性追跡モデルLoci-Loopedを導入する。
Loci-Loopedは、ピクセル空間の観察によって潜時的想像力を適応的に融合させ、時間とともに符号化されるオブジェクト固有のものや場所を一貫性のある潜時的対象とすることを示す。
そこで本研究では,映像データからオブジェクトの永続性を直接学習する自己教師あり対話型学習モデルを提案する。
論文 参考訳(メタデータ) (2023-10-16T13:11:35Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。