論文の概要: Featurising Pixels from Dynamic 3D Scenes with Linear In-Context Learners
- arxiv url: http://arxiv.org/abs/2604.26488v1
- Date: Wed, 29 Apr 2026 09:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.341264
- Title: Featurising Pixels from Dynamic 3D Scenes with Linear In-Context Learners
- Title(参考訳): リニアインテクスト学習者による動的3次元シーンからの画素の抽出
- Authors: Nikita Araslanov, Martin Sundermeyer, Hidenobu Matsuki, David Joseph Tan, Federico Tombari,
- Abstract要約: ビデオから画素精度の高い特徴記述子を学習するフレームワークを提案する。
トレーニングフレームワークのコアとなるのは,コンテキスト内での線形学習です。
多様な視覚タスクのスイートにまたがって学習された表現の説得力のある経験的メリットを実証する。
- 参考スコア(独自算出の注目度): 52.436846702622915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the most exciting applications of vision models involve pixel-level reasoning. Despite the abundance of vision foundation models, we still lack representations that effectively embed spatio-temporal properties of visual scenes at the pixel level. Existing frameworks either train on image-based pretext tasks, which do not account for dynamic elements, or on video sequences for action-level reasoning, which does not scale to dense pixel-level prediction. We present a framework that learns pixel-accurate feature descriptors from videos, LILA. The core element of our training framework is linear in-context learning. LILA leverages spatio-temporal cue maps -- depth and motion -- estimated with off-the-shelf networks. Despite the noisy nature of those cues, LILA trains effectively on uncurated video datasets, embedding semantic and geometric properties in a temporally consistent manner. We demonstrate compelling empirical benefits of the learned representation across a diverse suite of vision tasks: video object segmentation, surface normal estimation and semantic segmentation.
- Abstract(参考訳): 視覚モデルの最もエキサイティングな応用の1つは、ピクセルレベルの推論である。
ビジョンファウンデーションモデルが豊富にあるにもかかわらず、画素レベルでの視覚シーンの時空間特性を効果的に埋め込む表現はいまだに欠けている。
既存のフレームワークでは、動的要素を考慮しないイメージベースのプリテキストタスクや、高密度ピクセルレベルの予測にスケールしないアクションレベルの推論のためのビデオシーケンスをトレーニングしている。
本稿では,ビデオから画素精度の高い特徴記述子(LILA)を学習するフレームワークを提案する。
トレーニングフレームワークの中核となる要素は、コンテキスト内での線形学習です。
LILAは、棚外のネットワークで推定される時空間の深さと動きの地図を活用している。
これらのノイズの性質にもかかわらず、LILAは、時間的に一貫した方法で意味的および幾何学的性質を埋め込んだ、未計算のビデオデータセットを効果的に訓練する。
映像オブジェクトのセグメンテーション、表面正規推定、セマンティックセグメンテーションなど、多様な視覚タスクの集合にまたがる学習表現の魅力的な経験的メリットを実証する。
関連論文リスト
- PixelCraft: A Multi-Agent System for High-Fidelity Visual Reasoning on Structured Images [58.73779101355669]
PixelCraftは、高忠実度画像処理と、構造化画像に対する柔軟な視覚的推論のための、新しいマルチエージェントシステムである。
この基盤の上に構築されたPixelCraftは、ツールの選択、エージェントの議論、自己批判といった3段階の動的なワークフローを通じて、視覚的推論を容易にする。
論文 参考訳(メタデータ) (2025-09-29T17:59:49Z) - Hyperbolic Contrastive Learning for Visual Representations beyond
Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。
視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文 参考訳(メタデータ) (2022-12-01T16:58:57Z) - Self-supervised video pretraining yields robust and more human-aligned visual representations [14.599429594703539]
一般的な表現は、画像理解タスクにおける事前ビデオ事前学習法よりもはるかに優れている。
VITO表現は、画像、ビデオ、および逆向きに訓練されたものよりも、自然および合成的な変形に対して著しく堅牢である。
これらの結果は、ビデオ事前学習は、視覚世界の統一的、堅牢で、人間と協調した表現を学習する簡単な方法になり得ることを示唆している。
論文 参考訳(メタデータ) (2022-10-12T17:30:12Z) - Entropy-driven Unsupervised Keypoint Representation Learning in Videos [7.940371647421243]
本稿では,ビデオから意味のある表現を教師なしで学習するための新しいアプローチを提案する。
画素近傍のテクスティカルなエントロピーとその時間的進化は,特徴の学習に有用な本質的な監督信号を生み出すと論じる。
私たちの経験的な結果は、静的なオブジェクトや動的オブジェクトへの出席や突然の入場や退場といった課題を解決する情報駆動キーポイントのパフォーマンスに優れています。
論文 参考訳(メタデータ) (2022-09-30T12:03:52Z) - Pixel-level Correspondence for Self-Supervised Learning from Video [56.24439897867531]
ピクセルレベルの対応 (PiCo) はビデオから高密度なコントラスト学習を行う方法である。
標準的なベンチマークでPiCoを検証し、複数の高密度予測タスクで自己教師付きベースラインを上回ります。
論文 参考訳(メタデータ) (2022-07-08T12:50:13Z) - Filtered-CoPhy: Unsupervised Learning of Counterfactual Physics in Pixel
Space [43.654464513994164]
高次元データ(画像,ビデオ)における因果関係の学習方法を提案する。
我々の手法は、いかなる根拠となる真実の位置や他の対象物やシーン特性の知識や監督も必要としない。
我々は,画素空間における予測のための新しい挑戦的かつ慎重に設計された反実的ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-02-01T12:18:30Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Learning Physical Graph Representations from Visual Scenes [56.7938395379406]
物理シーングラフ(PSG)はシーンを階層的なグラフとして表現し、ノードは異なるスケールのオブジェクト部品に直感的に対応し、部品間の物理的接続にエッジを持つ。
PSGNetは、低レベルの画像情報と高レベルの画像情報を組み合わせたリカレントフィードバック接続、空間的に均一な特徴マップをオブジェクト中心のグラフ構造に変換するグラフプーリングとベクトル化操作を含む、標準的なCNNを拡張している。
我々は,PSGNetがシーンセグメンテーションタスクにおいて,他の自己教師付きシーン表現アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-22T16:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。