論文の概要: Video Self-Distillation for Single-Image Encoders: A Step Toward Physically Plausible Perception
- arxiv url: http://arxiv.org/abs/2507.19272v1
- Date: Fri, 25 Jul 2025 13:52:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.978152
- Title: Video Self-Distillation for Single-Image Encoders: A Step Toward Physically Plausible Perception
- Title(参考訳): シングルイメージエンコーダのためのビデオ自己蒸留 : 物理的にプラウシブルな知覚に向けての一歩
- Authors: Marcel Simon, Tae-Ho Kim, Seul-Ki Yeom,
- Abstract要約: 現在のフレームから次のフレーム表現を予測するために訓練されたビデオ蒸留シングルイメージエンコーダを導入する。
本研究は,映像の自己蒸留を幾何学的認識への軽量な経路として強調した。
- 参考スコア(独自算出の注目度): 2.211911888089714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised image encoders such as DINO have recently gained significant interest for learning robust visual features without labels. However, most SSL methods train on static images and miss the temporal cues inherent in videos. We introduce a video-distilled single-image encoder trained to predict the next-frame representation from the current frame. This simple objective injects 3D spatial and temporal priors without optical flow or tracking. When pre-training on a single 2-hour video, our approach raises the mean Intersection-over-Union (mIoU) on ADE20K from 35.0 (DoRA) to 36.4 while remaining a drop-in replacement for image-only pipelines. Our results highlight video self-distillation as a lightweight route to geometry-aware perception an essential ingredient for physically plausible world models and Physical AI.
- Abstract(参考訳): DINOのような自己監督型画像エンコーダは、最近、ラベルなしで堅牢な視覚的特徴を学習することに大きな関心を集めている。
しかし、ほとんどのSSLメソッドは静的なイメージをトレーニングし、ビデオに固有の時間的手がかりを見逃している。
現在のフレームから次のフレーム表現を予測するために訓練されたビデオ蒸留シングルイメージエンコーダを導入する。
この単純な目的は、光学的フローやトラッキングなしで3次元の空間的および時間的先行を注入する。
2時間のビデオの事前トレーニングでは、ADE20K上のIntersection-over-Union(mIoU)の平均値は35.0(DoRA)から36.4に上昇し、画像のみのパイプラインをドロップインで置き換える。
本研究は,物理可視世界モデルや物理AIに不可欠な幾何学的認識への軽量な経路として,ビデオ自己蒸留に注目した。
関連論文リスト
- AI-Generated Video Detection via Perceptual Straightening [9.008575690370895]
本稿では,AI生成ビデオと自然を区別する新しい手法であるReStraVを提案する。
知覚的直交」仮説に着想を得て、モデルの表現領域における時間的曲率と段階的距離を定量化する。
我々の分析によると、AI生成ビデオは実際のビデオと比べて、曲率と距離のパターンがかなり異なる。
論文 参考訳(メタデータ) (2025-07-01T09:04:21Z) - Predicting 4D Hand Trajectory from Monocular Videos [63.842530566039606]
HaPTICはモノクロビデオからコヒーレントな4Dハンドトラジェクトリを推論するアプローチである。
既存の手法をグローバルな軌道精度で大幅に上回る。
これは、単一画像のポーズ推定における最先端の手法に匹敵する。
論文 参考訳(メタデータ) (2025-01-14T18:59:05Z) - Is ImageNet worth 1 video? Learning strong image encoders from 1 long unlabelled video [34.93510037684924]
初対人ビデオを調査し,「ウォーキングツアー」データセットを導入する。
これらのビデオは高解像度で数時間の長さで、1回の未中断撮影で撮影される。
本稿では,連続ビデオからの学習に適した自己教師付き画像事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T17:59:55Z) - Diffusion-Guided Reconstruction of Everyday Hand-Object Interaction
Clips [38.02945794078731]
短いビデオクリップから手動物体のインタラクションを再構築する作業に取り組む。
提案手法は,映像ごとの3D推論を最適化し,物体形状のニューラルな3D表現を復元する。
我々は、エゴセントリックビデオに対する我々のアプローチを実証的に評価し、以前のシングルビュー法やマルチビュー法よりも大幅に改善されていることを観察した。
論文 参考訳(メタデータ) (2023-09-11T17:58:30Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - In Defense of Image Pre-Training for Spatiotemporal Recognition [32.56468478601864]
画像事前学習を効果的に活用する鍵は、空間的特徴と時間的特徴の学習の分解にある。
新しいパイプラインは、大きなスピードアップを伴うビデオ認識において、常により良い結果を達成する。
論文 参考訳(メタデータ) (2022-05-03T18:45:44Z) - ST-HOI: A Spatial-Temporal Baseline for Human-Object Interaction
Detection in Videos [91.29436920371003]
時空間HoI検出(ST-HOI)という,シンプルで効果的なアーキテクチャを提案する。
我々は、人や物体の軌跡、正しく位置付けられた視覚的特徴、空間的マスキングのポーズ特徴などの時間的情報を利用する。
我々は、VidHOIと呼ばれる新しいビデオHOIベンチマークを構築し、提案手法は安定したベースラインとして機能する。
論文 参考訳(メタデータ) (2021-05-25T07:54:35Z) - Unsupervised Visual Representation Learning by Tracking Patches in Video [88.56860674483752]
本研究では,コンピュータビジョンシステムのプロキシタスクとしてトラッキングを用いて視覚表現を学習することを提案する。
子どもたちがプレイするキャッチゲームをベースに、視覚表現を学ぶ3D-CNNモデルのためのキャッチ・ザ・パッチ(CtP)ゲームを設計します。
論文 参考訳(メタデータ) (2021-05-06T09:46:42Z) - Beyond Static Features for Temporally Consistent 3D Human Pose and Shape
from a Video [68.4542008229477]
時間的に一貫したメッシュ回復システム(TCMR)を提案する。
現在の静的特徴に支配されることなく、過去と将来のフレームの時間情報に効果的にフォーカスする。
フレームごとの3Dポーズや形状の精度が向上し、時間的一貫性が向上した。
論文 参考訳(メタデータ) (2020-11-17T13:41:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。