論文の概要: Unique Lives, Shared World: Learning from Single-Life Videos
- arxiv url: http://arxiv.org/abs/2512.04085v1
- Date: Wed, 03 Dec 2025 18:59:57 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 14:56:26.073032
- Title: Unique Lives, Shared World: Learning from Single-Life Videos
- Title(参考訳): Unique Lives, Shared World: シングルライフビデオから学ぶ
- Authors: Tengda Han, Sayna Ebrahimi, Dilara Gokay, Li Yang Ku, Maks Ovsjanikov, Iva Babukova, Daniel Zoran, Viorica Patraucean, Joao Carreira, Andrew Zisserman, Dima Damen,
- Abstract要約: 我々は、視覚的エンコーダを自己監督的に学習するために、1つの人生の中で自然に捉えた複数の視点を活用する。
異なる生活に独立して訓練されたモデルが高度に整合した幾何学的理解を発達させることを示す。
第3に、同一人の1週間から30時間までのトレーニングが、30時間の多様なWebデータのトレーニングに匹敵するパフォーマンスをもたらすことを実証する。
- 参考スコア(独自算出の注目度): 77.78726253186024
- License:
- Abstract: We introduce the "single-life" learning paradigm, where we train a distinct vision model exclusively on egocentric videos captured by one individual. We leverage the multiple viewpoints naturally captured within a single life to learn a visual encoder in a self-supervised manner. Our experiments demonstrate three key findings. First, models trained independently on different lives develop a highly aligned geometric understanding. We demonstrate this by training visual encoders on distinct datasets each capturing a different life, both indoors and outdoors, as well as introducing a novel cross-attention-based metric to quantify the functional alignment of the internal representations developed by different models. Second, we show that single-life models learn generalizable geometric representations that effectively transfer to downstream tasks, such as depth estimation, in unseen environments. Third, we demonstrate that training on up to 30 hours from one week of the same person's life leads to comparable performance to training on 30 hours of diverse web data, highlighting the strength of single-life representation learning. Overall, our results establish that the shared structure of the world, both leads to consistency in models trained on individual lives, and provides a powerful signal for visual representation learning.
- Abstract(参考訳): そこでは,個人が捉えた自我中心の動画にのみ焦点をあてて,個別の視覚モデルを訓練する。
我々は、視覚的エンコーダを自己監督的に学習するために、1つの人生の中で自然に捉えた複数の視点を活用する。
我々の実験は3つの重要な発見を実証した。
まず、異なる生活に独立して訓練されたモデルは、高度に整合した幾何学的理解を発達させる。
我々は、屋内と屋外の両方で異なる生活を捉えた異なるデータセット上の視覚的エンコーダを訓練し、異なるモデルによって開発された内部表現の機能的アライメントを定量化するための、新しい横断的アテンションに基づくメトリクスを導入することでこれを実証する。
第2に,一生モデルでは,未知の環境下での深度推定などの下流タスクに効果的に伝達する一般化可能な幾何学的表現が学習可能であることを示す。
第3に、同一人の1週間から30時間までのトレーニングが、30時間の多様なWebデータのトレーニングに匹敵するパフォーマンスをもたらすことを実証し、一生の表現学習の強みを強調した。
全体としては、世界の共有構造は、どちらも個々の生活で訓練されたモデルの一貫性をもたらし、視覚的表現学習のための強力な信号を提供する。
関連論文リスト
- Simulated Cortical Magnification Supports Self-Supervised Object Learning [8.07351541700131]
近年の自己教師型学習モデルでは,幼児と同様の視覚的体験を訓練することで,意味オブジェクト表現の発達をシミュレートしている。
本稿では,オブジェクト表現の発達において,この様々な解決法が果たす役割について考察する。
論文 参考訳(メタデータ) (2025-09-19T08:28:06Z) - A Unified and Scalable Membership Inference Method for Visual Self-supervised Encoder via Part-aware Capability [10.79834380458689]
自己指導型学習は、特にビジョンにおいて、重要なプライバシー上の懸念に直面している。
本稿では,より現実的な環境下で,視覚的自己監督モデルに対する会員推定を行う。
本稿では、PartCropと呼ばれる統一メンバーシップ推論手法を提案する。
論文 参考訳(メタデータ) (2025-05-15T14:43:34Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Multi-Task Multi-Modal Self-Supervised Learning for Facial Expression Recognition [6.995226697189459]
In-the-wildビデオデータから表情認識のためのマルチモーダル自己教師学習手法を用いる。
以上の結果から,マルチモーダル・セルフ・スーパービジョン・タスクが課題に対して大きなパフォーマンス向上をもたらすことが示唆された。
トレーニング済みのモデルとソースコードを公開しています。
論文 参考訳(メタデータ) (2024-04-16T20:51:36Z) - Improving Video Violence Recognition with Human Interaction Learning on
3D Skeleton Point Clouds [88.87985219999764]
我々は骨格点の新たな視点からビデオ暴力認識法を開発した。
まず、ビデオから抽出した人間の配列から3Dスケルトン点雲を定式化する。
そして、これらの3Dスケルトン点雲上で相互作用学習を行う。
論文 参考訳(メタデータ) (2023-08-26T12:55:18Z) - A Computational Account Of Self-Supervised Visual Learning From
Egocentric Object Play [3.486683381782259]
本研究では,異なる視点を同一視する学習信号が,頑健な視覚学習を支援する方法について検討する。
物体の異なる物理的視点から学習した表現は、下流画像の分類精度を向上する。
論文 参考訳(メタデータ) (2023-05-30T22:42:03Z) - Visualizing and Understanding Contrastive Learning [22.553990823550784]
一対のイメージから類似性学習タスクを理解するのに寄与する視覚的説明法を設計する。
また、画像分類システムの視覚的説明を評価するために用いられる既存のメトリクスを、一対の説明に適合させる。
論文 参考訳(メタデータ) (2022-06-20T13:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。