論文の概要: SS3D: End2End Self-Supervised 3D from Web Videos
- arxiv url: http://arxiv.org/abs/2604.22686v1
- Date: Fri, 24 Apr 2026 16:12:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.530971
- Title: SS3D: End2End Self-Supervised 3D from Web Videos
- Title(参考訳): SS3D:End2EndによるWebビデオのセルフスーパービジョン3D
- Authors: Marwane Hariat, Gianni Franchi, David Filliat, Antoine Manzanera,
- Abstract要約: 単眼ビデオからのフィードフォワード3D推定のためのWebスケールSfMベースのセルフスーパービジョン事前学習パイプラインであるSS3Dを提案する。
本モデルでは,1回の前方通過で深度,エゴモーション,内在を同時予測し,コヒーレントなエンドツーエンド3次元推定器として訓練・評価する。
- 参考スコア(独自算出の注目度): 15.931354477455445
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present SS3D, a web-scale SfM-based self-supervision pretraining pipeline for feed-forward 3D estimation from monocular video. Our model jointly predicts depth, ego-motion, and intrinsics in a single forward pass and is trained/evaluated as a coherent end-to-end 3D estimator. To stabilize joint learning, we use an intrinsics-first two-stage schedule and a unified single-checkpoint evaluation protocol. Scaling SfM self-supervision to unconstrained web video is challenging due to weak multi-view observability and strong corpus heterogeneity; we address these with a multi-view signal proxy (MVS) used for filtering and curriculum sampling, and with expert training distilled into a single student. Pretraining on YouTube-8M (~100M frames after filtering) yields strong cross-domain zero-shot transfer and improved fine-tuning performance over prior self-supervised baselines. We release the pretrained checkpoint and code.
- Abstract(参考訳): 単眼ビデオからのフィードフォワード3D推定のためのWebスケールSfMベースのセルフスーパービジョン事前学習パイプラインであるSS3Dを提案する。
本モデルでは,1回の前方通過で深度,エゴモーション,内在を同時予測し,コヒーレントなエンドツーエンド3次元推定器として訓練・評価する。
共同学習を安定させるために,本質的な第1段階の2段階スケジュールと統合された単一チェックポイント評価プロトコルを用いる。
SfMのWebビデオへの自己監督は、弱い多視点可観測性と強いコーパスの不均一性のため困難であり、フィルタやカリキュラムのサンプリングに使用される多視点信号プロキシ(MVS)を用いて、専門家の訓練を1人の学生に蒸留することで対処する。
YouTube-8M(フィルタリング後約100Mフレーム)での事前トレーニングでは、強いクロスドメインゼロショット転送が得られ、以前のセルフ教師付きベースラインよりも微調整性能が向上した。
トレーニング済みのチェックポイントとコードをリリースします。
関連論文リスト
- Weak to Strong: VLM-Based Pseudo-Labeling as a Weakly Supervised Training Strategy in Multimodal Video-based Hidden Emotion Understanding Tasks [4.888851550406879]
本稿では,映像中の「概念的感情」の自動認識に取り組むための弱視的枠組みを提案する。
実験により、厳密なクラス不均衡にもかかわらず、提案手法は以前の作業で0.6以下から0.69以上に上昇することが示された。
論文 参考訳(メタデータ) (2026-02-08T17:02:55Z) - Learning from Streaming Video with Orthogonal Gradients [62.51504086522027]
本稿では,映像の連続的ストリームからの表現学習を自己指導的に行うという課題に対処する。
これは、トレーニング中にビデオが切り刻まれ、シャッフルされ、非冗長なバッチを生成する、ビデオ学習の標準的なアプローチとは異なる。
3つのタスクでシャッフルからシーケンシャルな学習に移行する際のパフォーマンスの低下を実演する。
論文 参考訳(メタデータ) (2025-04-02T17:59:57Z) - 3DMOTFormer: Graph Transformer for Online 3D Multi-Object Tracking [15.330384668966806]
最先端の3Dマルチオブジェクト追跡(MOT)アプローチは通常、Kalman Filterのような非学習モデルベースのアルゴリズムに依存している。
本稿では3DMOTFormerを提案する。この3D MOTフレームワークはトランスフォーマーアーキテクチャをベースに構築されている。
提案手法は, nuScenesバリデーションとテストスプリットでそれぞれ71.2%, AMOTA68.2%を達成している。
論文 参考訳(メタデータ) (2023-08-12T19:19:58Z) - Learning to Estimate Single-View Volumetric Flow Motions without 3D
Supervision [0.0]
トレーニングに3次元地上真理を必要とせずに,対応するネットワークをトレーニングすることが可能であることを示す。
地上の真実データがない場合には、合成再構成に頼るのではなく、実世界の観測装置でモデルを訓練することができる。
論文 参考訳(メタデータ) (2023-02-28T10:26:02Z) - 3D-CSL: self-supervised 3D context similarity learning for
Near-Duplicate Video Retrieval [17.69904571043164]
NDVR(Near-Duplicate Video Retrieval)のためのコンパクトパイプラインである3D-SLを導入する。
ネットワークを最適化するための2段階の自己教師型類似性学習戦略を提案する。
本手法は,クリップレベルのNDVRにおける最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-10T05:51:08Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - PoseTriplet: Co-evolving 3D Human Pose Estimation, Imitation, and
Hallucination under Self-supervision [102.48681650013698]
既存の自己監督型3次元ポーズ推定スキームは、学習を導くための弱い監督に大きく依存している。
そこで我々は,2D-3Dのポーズペアを明示的に生成し,監督を増強する,新しい自己監督手法を提案する。
これは、ポーズ推定器とポーズ幻覚器を併用して学習する強化学習ベースの模倣器を導入することで可能となる。
論文 参考訳(メタデータ) (2022-03-29T14:45:53Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - SeCo: Exploring Sequence Supervision for Unsupervised Representation
Learning [114.58986229852489]
本稿では,空間的,シーケンシャル,時間的観点から,シーケンスの基本的および汎用的な監視について検討する。
私たちはContrastive Learning(SeCo)という特定の形式を導き出します。
SeCoは、アクション認識、未トリムアクティビティ認識、オブジェクト追跡に関する線形プロトコルにおいて、優れた結果を示す。
論文 参考訳(メタデータ) (2020-08-03T15:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。