論文の概要: $\texttt{DINO-Foresight}$: Looking into the Future with DINO
- arxiv url: http://arxiv.org/abs/2412.11673v1
- Date: Mon, 16 Dec 2024 11:26:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:56:51.780738
- Title: $\texttt{DINO-Foresight}$: Looking into the Future with DINO
- Title(参考訳): $\texttt{DINO-Foresight}$: DINOの今後の展望
- Authors: Efstathios Karypidis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis,
- Abstract要約: $textttDINO-Foresight$は、事前訓練されたビジョンファウンデーションモデル(VFM)のセマンティック特徴空間で動作する。
提案手法は,VFM特徴量の時間的変化を予測するために,マスク付き特徴変換器を自己教師型で訓練する。
このフレームワークでは、VFM機能は遅延空間として扱われ、異なるヘッドが将来のフレーム分析のために特定のタスクを実行する。
- 参考スコア(独自算出の注目度): 11.075247758198762
- License:
- Abstract: Predicting future dynamics is crucial for applications like autonomous driving and robotics, where understanding the environment is key. Existing pixel-level methods are computationally expensive and often focus on irrelevant details. To address these challenges, we introduce $\texttt{DINO-Foresight}$, a novel framework that operates in the semantic feature space of pretrained Vision Foundation Models (VFMs). Our approach trains a masked feature transformer in a self-supervised manner to predict the evolution of VFM features over time. By forecasting these features, we can apply off-the-shelf, task-specific heads for various scene understanding tasks. In this framework, VFM features are treated as a latent space, to which different heads attach to perform specific tasks for future-frame analysis. Extensive experiments show that our framework outperforms existing methods, demonstrating its robustness and scalability. Additionally, we highlight how intermediate transformer representations in $\texttt{DINO-Foresight}$ improve downstream task performance, offering a promising path for the self-supervised enhancement of VFM features. We provide the implementation code at https://github.com/Sta8is/DINO-Foresight .
- Abstract(参考訳): 未来のダイナミクスを予測することは、自律運転やロボット工学のような、環境を理解することが重要だ。
既存のピクセルレベルのメソッドは計算コストが高く、無関係な詳細に集中することが多い。
これらの課題に対処するために、事前訓練されたビジョンファウンデーションモデル(VFM)のセマンティック機能空間で動作する新しいフレームワークである$\texttt{DINO-Foresight}$を紹介した。
提案手法は,VFM特徴量の経時的変化を予測するために,マスク付き特徴変換器を自己教師型で訓練する。
これらの特徴を予測することにより、様々なシーン理解タスクにオフザシェルフ、タスク固有ヘッドを適用することができる。
このフレームワークでは、VFM機能は遅延空間として扱われ、異なるヘッドが将来のフレーム分析のために特定のタスクを実行する。
大規模な実験により、我々のフレームワークは既存の手法より優れており、その堅牢性とスケーラビリティを実証しています。
さらに、$\texttt{DINO-Foresight}$の中間トランスフォーマー表現がダウンストリームタスクのパフォーマンスを向上し、VFM機能の自己教師付き強化のための有望なパスを提供する方法について強調する。
実装コードはhttps://github.com/Sta8is/DINO-Foresightで公開しています。
関連論文リスト
- LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
コストのかかるラベルを必要とせずにエンドツーエンドの運転を改善するための,新しい自己管理手法を提案する。
フレームワーク textbfLAW は LAtent World モデルを用いて,予測エゴアクションと現在のフレームの潜在機能に基づいて,今後の潜在機能を予測する。
その結果,オープンループベンチマークとクローズループベンチマークの両方において,コストのかかるアノテーションを使わずに最先端のパフォーマンスを実現することができた。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Forging Vision Foundation Models for Autonomous Driving: Challenges,
Methodologies, and Opportunities [59.02391344178202]
ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。
総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。
本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-01-16T01:57:24Z) - Analyzing Local Representations of Self-supervised Vision Transformers [34.56680159632432]
各種自己監督型視覚変換器(ViT)の比較分析を行った。
大規模言語モデルに触発されて、微調整をほとんど行わずに様々なコンピュータビジョンタスクを実行するViTの能力について検討する。
論文 参考訳(メタデータ) (2023-12-31T11:38:50Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - VFDS: Variational Foresight Dynamic Selection in Bayesian Neural
Networks for Efficient Human Activity Recognition [81.29900407096977]
変動予測動的選択(VFDS)は、観測する次の機能サブセットを選択するポリシーを学ぶ。
本稿では,その実践においてパフォーマンスコストのトレードオフが重要となるヒューマンアクティビティ認識(HAR)タスクに,VFDSを適用した。
論文 参考訳(メタデータ) (2022-03-31T22:52:43Z) - Trajformer: Trajectory Prediction with Local Self-Attentive Contexts for
Autonomous Driving [13.861631911491651]
自己意識は、エージェントの社会的文脈を表現するためのより良い制御を可能にする。
Argoverseデータセットの様々なベースラインに対する標準メトリクスの改善を示す。
論文 参考訳(メタデータ) (2020-11-30T15:42:15Z) - Representation Learning with Video Deep InfoMax [26.692717942430185]
我々は、DeepInfoMaxをビデオ領域に拡張し、時間的ネットワークにおける同様の構造を利用する。
自然数列と時間ダウンサンプル列の両方からの描画ビューが,キネティクスに制約された行動認識タスクに結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-07-27T02:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。