Fugu-MT 論文翻訳(概要): MTReD: 3D Reconstruction Dataset for Fly-over Videos of Maritime Domain

論文の概要: MTReD: 3D Reconstruction Dataset for Fly-over Videos of Maritime Domain

arxiv url: http://arxiv.org/abs/2503.00853v1
Date: Sun, 02 Mar 2025 11:10:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.643463
Title: MTReD: 3D Reconstruction Dataset for Fly-over Videos of Maritime Domain
Title（参考訳）: MTReD:海上ドメインのフライオーバー映像のための3D再構成データセット
Authors: Rui Yi Yong, Samuel Picosson, Arnold Wiliem,
Abstract要約: 本研究は, 海上域におけるビデオフライオーバー視点問題に対する3次元シーン再構成に取り組む。 MTReDと命名された新しい海洋3次元シーン再構築ベンチマークデータセットを提案する。 MTReDは、船、島、海岸線を含むインターネットからキュレーションされた19のフライオーバービデオで構成されている。
参考スコア（独自算出の注目度）: 3.236198583140341
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work tackles 3D scene reconstruction for a video fly-over perspective problem in the maritime domain, with a specific emphasis on geometrically and visually sound reconstructions. This will allow for downstream tasks such as segmentation, navigation, and localization. To our knowledge, there is no dataset available in this domain. As such, we propose a novel maritime 3D scene reconstruction benchmarking dataset, named as MTReD (Maritime Three-Dimensional Reconstruction Dataset). The MTReD comprises 19 fly-over videos curated from the Internet containing ships, islands, and coastlines. As the task is aimed towards geometrical consistency and visual completeness, the dataset uses two metrics: (1) Reprojection error; and (2) Perception based metrics. We find that existing perception-based metrics, such as Learned Perceptual Image Patch Similarity (LPIPS), do not appropriately measure the completeness of a reconstructed image. Thus, we propose a novel semantic similarity metric utilizing DINOv2 features coined DiFPS (DinoV2 Features Perception Similarity). We perform initial evaluation on two baselines: (1) Structured from Motion (SfM) through Colmap; and (2) the recent state-of-the-art MASt3R model. We find that the reconstructed scenes by MASt3R have higher reprojection errors, but superior perception based metric scores. To this end, some pre-processing methods are explored, and we find a pre-processing method which improves both the reprojection error and perception-based score. We envisage our proposed MTReD to stimulate further research in these directions. The dataset and all the code will be made available in https://github.com/RuiYiYong/MTReD.
Abstract（参考訳）: 本研究は,海洋域における映像のフライオーバー視点問題に対して,幾何学的および視覚的音像再構成に特に重点を置いた3次元シーン再構成に取り組む。これにより、セグメンテーション、ナビゲーション、ローカライゼーションといった下流タスクが可能になる。私たちの知る限りでは、このドメインで利用可能なデータセットはありません。そこで本稿では, MTReD (Maritime Three-dimensional Reconstruction Dataset) と呼ばれる, 海上3次元シーン再構築ベンチマークデータセットを提案する。 MTReDは、船、島、海岸線を含むインターネットからキュレーションされた19のフライオーバービデオで構成されている。タスクは幾何学的一貫性と視覚的完全性を目指しており、データセットは(1)リジェクションエラー、(2)知覚に基づくメトリクスの2つの指標を使用する。 LPIPS(Learned Perceptual Image Patch similarity)のような既存の知覚ベースメトリクスは、再構成画像の完全性を適切に測定していない。そこで本稿では,DINOv2特徴を用いたDinoV2特徴認識類似度(DinoV2特徴認識類似度)を提案する。我々は,(1)動きからColmapを通して構造化されたSfM(Structured from Motion, SfM)と(2)最新の最先端MASt3Rモデルの2つのベースラインに対して,初期評価を行う。また,MASt3Rにより再構成されたシーンには高い再投影誤差があるが,知覚に基づく評価スコアが優れていることがわかった。この目的のために、いくつかの前処理手法を探索し、再投影誤差と知覚に基づくスコアの両方を改善する前処理法を見出した。提案するMTReDについて,これらの方向性に関するさらなる研究を奨励するために検討する。データセットとすべてのコードはhttps://github.com/RuiYiYong/MTReDで利用可能になる。

関連論文リスト

E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。 GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文参考訳（メタデータ） (2025-06-02T17:53:09Z)
St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World [106.91539872943864]
St4RTrackは、RGB入力から世界座標フレーム内の動的ビデオコンテンツを同時に再構成し、追跡するフレームワークである。静的および動的シーン幾何学の両方をキャプチャして、同じ世界において、同時に両方のポイントマップを予測する。統合されたデータ駆動フレームワークの有効性と効率を実証し、世界フレームの再構築と追跡のための新しい広範囲なベンチマークを構築します。
論文参考訳（メタデータ） (2025-04-17T17:55:58Z)
Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction [56.32589034046427]
本研究では,ダイナミックポイントマップ(DPM)を導入し,モーションセグメンテーション,シーンフロー推定,3次元物体追跡,2次元対応などの4次元タスクをサポートする標準点マップを拡張した。我々は,合成データと実データを組み合わせたDPM予測器を訓練し,映像深度予測,ダイナミックポイントクラウド再構成,3次元シーンフロー,オブジェクトポーズ追跡,最先端性能の達成など,様々なベンチマークで評価する。
論文参考訳（メタデータ） (2025-03-20T16:41:50Z)
T-3DGS: Removing Transient Objects for 3D Scene Reconstruction [83.05271859398779]
ガウススプラッティングを用いた3次元シーン再構成のための入力ビデオから一貫したオブジェクトを除去する新しいフレームワークを提案する。以上の結果から,既存の疎捕捉データセットにおける技術の現状と,新たに提案した高密度キャプチャ(ビデオ)データセットの大幅な改善が示された。
論文参考訳（メタデータ） (2024-11-29T07:45:24Z)
SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。 2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文参考訳（メタデータ） (2023-06-28T22:36:44Z)
CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文参考訳（メタデータ） (2022-10-09T13:38:48Z)
SimpleRecon: 3D Reconstruction Without 3D Convolutions [21.952478592241]
本稿では,高品質なマルチビュー深度予測に焦点をあてることによって,単純なオフザシェルフ深度融合による高精度な3次元再構成を実現することを示す。提案手法は,ScanNetと7シーンの3次元再構成において,深度推定と近接的あるいは良好な3次元再構成のための最先端技術に対する大きなリードを達成している。
論文参考訳（メタデータ） (2022-08-31T09:46:34Z)
Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文参考訳（メタデータ） (2022-05-05T17:59:55Z)
From 2D to 3D: Re-thinking Benchmarking of Monocular Depth Prediction [80.67873933010783]
我々は,MDPが現在,3Dアプリケーションにおける予測の有用性を評価するのに有効な指標に頼っていることを論じる。これにより、2Dベースの距離を最適化するのではなく、シーンの3D構造を正確に認識し、推定に向けて改善する新しい手法の設計と開発が制限される。本稿では,MDP手法の3次元幾何評価に適した指標セットと,提案手法に不可欠な室内ベンチマークRIO-D3Dを提案する。
論文参考訳（メタデータ） (2022-03-15T17:50:54Z)
MobRecon: Mobile-Friendly Hand Mesh Reconstruction from Monocular Image [18.68544438724187]
本研究では,高速な推論速度,時間的コヒーレンスを同時に実現可能な単一視点ハンドメッシュ再構築フレームワークを提案する。私たちのフレームワークであるMobReconは、安価な計算コストとミニチュアモデルサイズを備えており、Apple A14 CPU上で83FPSの高速な推論速度を実現しています。
論文参考訳（メタデータ） (2021-12-06T03:01:24Z)
H3D: Benchmark on Semantic Segmentation of High-Resolution 3D Point Clouds and textured Meshes from UAV LiDAR and Multi-View-Stereo [4.263987603222371]
本稿では,3つの方法でユニークな3次元データセットを提案する。ヘシグハイム(ドイツ語: Hessigheim, H3D)は、ドイツの都市。片手で3次元データ分析の分野での研究を促進するとともに、新しいアプローチの評価とランク付けを目的としている。
論文参考訳（メタデータ） (2021-02-10T09:33:48Z)
Atlas: End-to-End 3D Scene Reconstruction from Posed Images [13.154808583020229]
RGB画像の集合からTSDF(truncated signed distance function)を直接回帰することにより,シーンのエンドツーエンドな3D再構成手法を提案する。 2D CNNは、各画像から特徴を独立して抽出し、その特徴をバックプロジェクションし、ボクセルボリュームに蓄積する。 3D CNNは蓄積した特徴を洗練し、TSDF値を予測する。
論文参考訳（メタデータ） (2020-03-23T17:59:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。