論文の概要: L4P: Low-Level 4D Vision Perception Unified
- arxiv url: http://arxiv.org/abs/2502.13078v2
- Date: Fri, 25 Apr 2025 14:07:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 18:47:07.433797
- Title: L4P: Low-Level 4D Vision Perception Unified
- Title(参考訳): L4P:低レベル4D視覚認識を統一
- Authors: Abhishek Badki, Hang Su, Bowen Wen, Orazio Gallo,
- Abstract要約: 我々は,低レベルな4次元知覚タスクを統一されたフレームワークで解くフィードフォワードアーキテクチャであるL4Pを提案する。
一般およびフィードフォワードの定式化にもかかわらず,本手法は既存の特殊手法の性能に適合するか,上回っている。
シングルタスクメソッドに匹敵するタスクを一度に一度に解決する。
- 参考スコア(独自算出の注目度): 17.11032924751659
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The spatio-temporal relationship between the pixels of a video carries critical information for low-level 4D perception tasks. A single model that reasons about it should be able to solve several such tasks well. Yet, most state-of-the-art methods rely on architectures specialized for the task at hand. We present L4P, a feedforward, general-purpose architecture that solves low-level 4D perception tasks in a unified framework. L4P leverages a pre-trained ViT-based video encoder and combines it with per-task heads that are lightweight and therefore do not require extensive training. Despite its general and feedforward formulation, our method matches or surpasses the performance of existing specialized methods on both dense tasks, such as depth or optical flow estimation, and sparse tasks, such as 2D/3D tracking. Moreover, it solves all tasks at once in a time comparable to that of single-task methods.
- Abstract(参考訳): ビデオの画素間の時空間的関係は、低レベルの4D知覚タスクに重要な情報をもたらす。
理由となる1つのモデルは、そのようなタスクをうまく解決できるはずである。
しかし、最先端のほとんどのメソッドは、そのタスクに特化しているアーキテクチャに依存している。
我々は,低レベルな4次元知覚タスクを統一されたフレームワークで解く,フィードフォワードで汎用的なアーキテクチャであるL4Pを提案する。
L4Pは、トレーニング済みのViTベースのビデオエンコーダを活用し、タスク毎のヘッドと組み合わせて、軽量で大規模なトレーニングを必要としない。
一般的なフィードフォワードの定式化にもかかわらず,本手法は,奥行きや光フロー推定などの高密度なタスクと,2D/3Dトラッキングのような疎度なタスクの両方において,既存の特殊な手法の性能と一致しているか,あるいは上回っている。
さらに、シングルタスクメソッドと同等の時間で、すべてのタスクを一度に解決する。
関連論文リスト
- Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields [56.184278668305076]
2次元視覚基礎モデルから4次元領域へ機能を拡張するための普遍的なフレームワークであるFeature4Xを紹介する。
このフレームワークは、まず、ビデオ基礎モデルの機能をSplattingを使って明示的な4D機能フィールドに蒸留し、持ち上げる。
実験では、新しいビューセグメント、幾何学的および外観的シーンの編集、全時間ステップにわたる自由形式VQAについて紹介した。
論文 参考訳(メタデータ) (2025-03-26T17:56:16Z) - 4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding [83.37551035659119]
4Dオブジェクトを理解する上でのMLLMの能力を評価するために、一般に標準化されたベンチマークは存在しない。
4Dオブジェクト理解におけるMLLMの能力を評価する最初のベンチマークである4D-Benchを紹介する。
論文 参考訳(メタデータ) (2025-03-22T17:55:53Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - A Unified Framework for 3D Scene Understanding [50.6762892022386]
UniSeg3Dは統合された3Dシーン理解フレームワークである。
単一のモデル内で、パノプティクス、セマンティック、インスタンス、インタラクティブ、参照、オープンボキャブラリセグメンテーションタスクを達成する。
論文 参考訳(メタデータ) (2024-07-03T16:50:07Z) - Instruct-IPT: All-in-One Image Processing Transformer via Weight Modulation [31.526982642627335]
我々は、オールインワン画像処理変換器(IPT)であるインストラクト-IPTを提案する。
Instruct-IPTは、大きなタスク間ギャップを持つ多様体画像復元タスクに効果的に対処できる。
優れた圧縮戦略のランク解析を行い、バイアスに対して低ランク分解を行う。
論文 参考訳(メタデータ) (2024-06-30T12:13:34Z) - Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。
シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。
提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文 参考訳(メタデータ) (2024-03-25T17:55:52Z) - TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - An Embodied Generalist Agent in 3D World [67.16935110789528]
本稿では,3次元世界における知覚,接地,推論,計画,行動に優れた多モードジェネリストエージェントLEOを紹介する。
我々は,多種多様なオブジェクトレベルおよびシーンレベルのタスクからなる大規模データセットを収集する。
3Dキャプション,質問応答,具体的推論,ナビゲーション,操作など,多岐にわたるLEOの卓越した習熟度を実証した。
論文 参考訳(メタデータ) (2023-11-18T01:21:38Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - Joint 2D-3D Multi-Task Learning on Cityscapes-3D: 3D Detection,
Segmentation, and Depth Estimation [11.608682595506354]
TaskPrompterは革新的なマルチタスクプロンプトフレームワークを提供する。
i)タスク・ジェネリックな表現、ii)タスク固有の表現、iii)タスク間の相互作用の学習を統一する。
新しいベンチマークでは、モノクロ3D車両の検出、セマンティックセグメンテーション、モノクロ深度推定の予測を同時に生成するためにマルチタスクモデルが必要である。
論文 参考訳(メタデータ) (2023-04-03T13:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。