Fugu-MT 論文翻訳(概要): 4D-Net for Learned Multi-Modal Alignment

論文の概要: 4D-Net for Learned Multi-Modal Alignment

arxiv url: http://arxiv.org/abs/2109.01066v1
Date: Thu, 2 Sep 2021 16:35:00 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-03 13:52:18.864528
Title: 4D-Net for Learned Multi-Modal Alignment
Title（参考訳）: 学習型マルチモーダルアライメントのための4D-Net
Authors: AJ Piergiovanni and Vincent Casser and Michael S. Ryoo and Anelia Angelova
Abstract要約: 本稿では,3DポイントクラウドとRGBセンシング情報を利用した3Dオブジェクト検出手法である4D-Netを提案する。様々な特徴表現や抽象化レベルにまたがる新しい接続学習を行い、また幾何学的制約を観察することで、4D情報を組み込むことができる。
参考スコア（独自算出の注目度）: 87.58354992455891
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present 4D-Net, a 3D object detection approach, which utilizes 3D Point Cloud and RGB sensing information, both in time. We are able to incorporate the 4D information by performing a novel dynamic connection learning across various feature representations and levels of abstraction, as well as by observing geometric constraints. Our approach outperforms the state-of-the-art and strong baselines on the Waymo Open Dataset. 4D-Net is better able to use motion cues and dense image information to detect distant objects more successfully.
Abstract（参考訳）: 3DポイントクラウドとRGBセンシング情報を利用した3Dオブジェクト検出手法である4D-Netを提案する。様々な特徴表現や抽象化レベルにまたがる新しい動的接続学習を行い、幾何学的制約を観察することで、4D情報を組み込むことができる。我々のアプローチはWaymo Open Datasetの最先端と強力なベースラインを上回っています。 4d-netは、動きの手がかりと密度の高い画像情報を使って、遠くの物体をよりうまく検出できる。

関連論文リスト

Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [48.87063562819018]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文参考訳（メタデータ） (2025-03-31T17:59:58Z)
BIP3D: Bridging 2D Images and 3D Perception for Embodied Intelligence [11.91274849875519]
画像中心の3次元知覚モデルBIP3Dを導入し,点中心の手法の限界を克服する。我々は、事前学習された2次元視覚基盤モデルを利用して意味理解を強化し、空間理解を改善するために空間拡張モジュールを導入する。我々の実験では、BIP3Dは、EmbodiedScanベンチマークで現在の最先端結果より優れており、3D検出タスクでは5.69%、視覚的グラウンドタスクでは15.25%の改善が達成されている。
論文参考訳（メタデータ） (2024-11-22T11:35:42Z)
Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文参考訳（メタデータ） (2024-05-26T17:47:34Z)
4DRVO-Net: Deep 4D Radar-Visual Odometry Using Multi-Modal and Multi-Scale Adaptive Fusion [2.911052912709637]
4次元(4D)レーダー-視覚計測(4DRVO)は4次元レーダーとカメラの補完情報を統合している。 4DRVOは4Dレーダーポイント雲の空隙による追跡誤差が顕著である可能性がある。本稿では,4次元レーダ・ビジュアル・オドメトリーの手法である4DRVO-Netを提案する。
論文参考訳（メタデータ） (2023-08-12T14:00:09Z)
DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文参考訳（メタデータ） (2022-12-15T14:18:47Z)
LoRD: Local 4D Implicit Representation for High-Fidelity Dynamic Human Modeling [69.56581851211841]
そこで我々は,LoRDという,動的に衣を着る人間の局所的な4D暗黙表現を提案する。私たちの重要な洞察は、ネットワークがローカルな部分レベルの表現の潜在コードを学ぶように促すことです。 LoRDは、4D人間を表現する能力が強く、実用上の最先端の手法よりも優れています。
論文参考訳（メタデータ） (2022-08-18T03:49:44Z)
Graph-DETR3D: Rethinking Overlapping Regions for Multi-View 3D Object Detection [17.526914782562528]
グラフ構造学習(GSL)による多視点画像情報を自動的に集約するグラフDETR3Dを提案する。我々の最良のモデルは、nuScenesテストリーダーボード上で49.5 NDSを達成し、様々な画像ビュー3Dオブジェクト検出器と比較して新しい最先端技術を実現している。
論文参考訳（メタデータ） (2022-04-25T12:10:34Z)
Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文参考訳（メタデータ） (2021-03-12T15:30:02Z)
DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文参考訳（メタデータ） (2020-04-02T17:48:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。