論文の概要: L4P: Low-Level 4D Vision Perception Unified
- arxiv url: http://arxiv.org/abs/2502.13078v1
- Date: Tue, 18 Feb 2025 17:31:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:06:51.375397
- Title: L4P: Low-Level 4D Vision Perception Unified
- Title(参考訳): L4P:低レベル4D視覚認識を統一
- Authors: Abhishek Badki, Hang Su, Bowen Wen, Orazio Gallo,
- Abstract要約: 我々は,低レベルな4Dタスクを統一されたフレームワークで解く,フィードフォワードで汎用的なアーキテクチャであるL4Pを提案する。
本手法は, 両タスクにおいて, 既存の特殊メソッドの性能に適合するか, 上回っている。
一度にすべてのタスクを一度に解決し、シングルタスクのメソッドに匹敵する。
- 参考スコア(独自算出の注目度): 17.11032924751659
- License:
- Abstract: The spatio-temporal relationship between the pixels of a video carries critical information for low-level 4D perception. A single model that reasons about it should be able to solve several such tasks well. Yet, most state-of-the-art methods rely on architectures specialized for the task at hand. We present L4P (pronounced "LAP"), a feedforward, general-purpose architecture that solves low-level 4D perception tasks in a unified framework. L4P combines a ViT-based backbone with per-task heads that are lightweight and therefore do not require extensive training. Despite its general and feedforward formulation, our method matches or surpasses the performance of existing specialized methods on both dense tasks, such as depth or optical flow estimation, and sparse tasks, such as 2D/3D tracking. Moreover, it solves all those tasks at once in a time comparable to that of individual single-task methods.
- Abstract(参考訳): ビデオの画素間の時空間的関係は、低レベルの4D知覚に重要な情報をもたらす。
理由となる1つのモデルは、そのようなタスクをうまく解決できるはずである。
しかし、最先端のほとんどのメソッドは、そのタスクに特化しているアーキテクチャに依存している。
L4P(LAP)は,低レベルな4次元知覚タスクを統一されたフレームワークで解く,フィードフォワード型汎用アーキテクチャである。
L4Pは、ViTベースのバックボーンとタスク毎のヘッドを組み合わせることで、軽量であり、大規模なトレーニングを必要としない。
一般的なフィードフォワードの定式化にもかかわらず,本手法は,奥行きや光フロー推定などの高密度なタスクと,2D/3Dトラッキングのような疎度なタスクの両方において,既存の特殊な手法の性能と一致しているか,あるいは上回っている。
さらに、個々のシングルタスクメソッドに匹敵するタスクを、一度に一度にすべて解決する。
関連論文リスト
- Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Instruct-IPT: All-in-One Image Processing Transformer via Weight Modulation [31.526982642627335]
我々は、オールインワン画像処理変換器(IPT)であるインストラクト-IPTを提案する。
Instruct-IPTは、大きなタスク間ギャップを持つ多様体画像復元タスクに効果的に対処できる。
優れた圧縮戦略のランク解析を行い、バイアスに対して低ランク分解を行う。
論文 参考訳(メタデータ) (2024-06-30T12:13:34Z) - Unifying 3D Vision-Language Understanding via Promptable Queries [39.55438547712157]
3次元視覚言語(3D-VL)理解のための統一モデル。
PQ3DはPromptable Queriesを使用して、幅広い3D-VLタスクに取り組むことができる。
10の多様な3D-VLデータセットでテストされたPQ3Dは、これらのタスクにおける印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-19T04:35:05Z) - Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。
シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。
提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文 参考訳(メタデータ) (2024-03-25T17:55:52Z) - TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - An Embodied Generalist Agent in 3D World [67.16935110789528]
本稿では,3次元世界における知覚,接地,推論,計画,行動に優れた多モードジェネリストエージェントLEOを紹介する。
我々は,多種多様なオブジェクトレベルおよびシーンレベルのタスクからなる大規模データセットを収集する。
3Dキャプション,質問応答,具体的推論,ナビゲーション,操作など,多岐にわたるLEOの卓越した習熟度を実証した。
論文 参考訳(メタデータ) (2023-11-18T01:21:38Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - Probabilistic-based Feature Embedding of 4-D Light Fields for
Compressive Imaging and Denoising [62.347491141163225]
4次元光電場(LF)は、効率的で効果的な機能埋め込みを実現する上で大きな課題となる。
様々な低次元畳み込みパターンを組み立てることで特徴埋め込みアーキテクチャを学習する確率論的特徴埋め込み(PFE)を提案する。
実世界および合成4次元LF画像において,本手法の有意な優位性を実証した。
論文 参考訳(メタデータ) (2023-06-15T03:46:40Z) - Joint 2D-3D Multi-Task Learning on Cityscapes-3D: 3D Detection,
Segmentation, and Depth Estimation [11.608682595506354]
TaskPrompterは革新的なマルチタスクプロンプトフレームワークを提供する。
i)タスク・ジェネリックな表現、ii)タスク固有の表現、iii)タスク間の相互作用の学習を統一する。
新しいベンチマークでは、モノクロ3D車両の検出、セマンティックセグメンテーション、モノクロ深度推定の予測を同時に生成するためにマルチタスクモデルが必要である。
論文 参考訳(メタデータ) (2023-04-03T13:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。