論文の概要: C-DOG: Training-Free Multi-View Multi-Object Association in Dense Scenes Without Visual Feature via Connected δ-Overlap Graphs
- arxiv url: http://arxiv.org/abs/2507.14095v1
- Date: Fri, 18 Jul 2025 17:23:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.374271
- Title: C-DOG: Training-Free Multi-View Multi-Object Association in Dense Scenes Without Visual Feature via Connected δ-Overlap Graphs
- Title(参考訳): C-DOG:コネクテッドδ-オーバーラップグラフによる視覚的特徴のないDense Scenesにおける学習自由多視点多目的アソシエーション
- Authors: Yung-Hong Sun, Ting-Hung Lin, Jiangang Chen, Hongrui Jiang, Yu Hen Hu,
- Abstract要約: マルチビュー・マルチオブジェクト・アソシエーションは3次元再構築パイプラインの基本的なステップである。
オブジェクト検出(またはポーズ推定)と3D再構成の中間モジュールとして機能するトレーニングフリーフレームワークであるC-DOGを提案する。
デルタオーバーラップグラフの連結モデリングとエピポーラ幾何学を組み合わせることで、ビュー全体の検出を堅牢に関連付ける。
- 参考スコア(独自算出の注目度): 4.576442835703357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view multi-object association is a fundamental step in 3D reconstruction pipelines, enabling consistent grouping of object instances across multiple camera views. Existing methods often rely on appearance features or geometric constraints such as epipolar consistency. However, these approaches can fail when objects are visually indistinguishable or observations are corrupted by noise. We propose C-DOG, a training-free framework that serves as an intermediate module bridging object detection (or pose estimation) and 3D reconstruction, without relying on visual features. It combines connected delta-overlap graph modeling with epipolar geometry to robustly associate detections across views. Each 2D observation is represented as a graph node, with edges weighted by epipolar consistency. A delta-neighbor-overlap clustering step identifies strongly consistent groups while tolerating noise and partial connectivity. To further improve robustness, we incorporate Interquartile Range (IQR)-based filtering and a 3D back-projection error criterion to eliminate inconsistent observations. Extensive experiments on synthetic benchmarks demonstrate that C-DOG outperforms geometry-based baselines and remains robust under challenging conditions, including high object density, without visual features, and limited camera overlap, making it well-suited for scalable 3D reconstruction in real-world scenarios.
- Abstract(参考訳): マルチビューのマルチオブジェクトアソシエーションは、3D再構築パイプラインの基本的なステップであり、複数のカメラビューにまたがるオブジェクトインスタンスの一貫性のあるグループ化を可能にする。
既存の手法は、しばしば外見の特徴やエピポーラ一貫性のような幾何学的制約に依存している。
しかし、これらのアプローチは、物体が視覚的に区別できない場合や、ノイズによって観測が破損した場合に失敗する可能性がある。
視覚的特徴に頼らずにオブジェクト検出(またはポーズ推定)と3次元再構成の中間モジュールとして機能するトレーニングフリーフレームワークであるC-DOGを提案する。
デルタオーバーラップグラフの連結モデリングとエピポーラ幾何学を組み合わせることで、ビュー全体の検出を堅牢に関連付ける。
各2次元観察はグラフノードとして表現され、エッジはエピポーラ一貫性によって重み付けされる。
デルタ近傍のオーバーラップクラスタリングステップは、ノイズと部分接続を許容しながら、強い一貫性のあるグループを特定する。
さらにロバスト性を改善するために,IQR(Interquartile Range)に基づくフィルタリングと3次元後方投影誤差基準を導入し,矛盾した観測を排除した。
総合的なベンチマーク実験により、C-DOGは幾何学ベースのベースラインより優れており、視覚的特徴のない高オブジェクト密度、カメラオーバーラップの制限といった困難な条件下でも頑健であり、現実のシナリオにおけるスケーラブルな3D再構成に適していることが示された。
関連論文リスト
- Dens3R: A Foundation Model for 3D Geometry Prediction [44.13431776180547]
Dens3Rは幾何学的密度予測のための3次元基礎モデルである。
画像対マッチング機能と本質的不変性モデリングを統合することにより、Dens3Rは複数の幾何学的量を正確に回帰する。
論文 参考訳(メタデータ) (2025-07-22T07:22:30Z) - Occupancy-Based Dual Contouring [12.944046673902415]
本稿では,2重畳み込み方式を提案する。
本手法は,GPU並列化を最大化するために,学習不要かつ慎重に設計されている。
論文 参考訳(メタデータ) (2024-09-20T11:32:21Z) - Object Gaussian for Monocular 6D Pose Estimation from Sparse Views [4.290993205307184]
ガウス的手法を用いたスパースビューオブジェクトポーズ推定のための新しいフレームワークであるSGPoseを紹介する。
最大10ビューを与えられたSGPoseは、ランダムな立方体から始めることで幾何学的認識表現を生成する。
典型的なベンチマーク、特にOcclusion LM-Oデータセットの実験では、SGPoseはスパースビューの制約下であっても既存のメソッドよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-09-04T10:03:11Z) - View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。
本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文 参考訳(メタデータ) (2024-05-30T04:14:58Z) - COMO: Compact Mapping and Odometry [17.71754144808295]
我々は3次元アンカー点のコンパクトな集合を通して密度幾何学を符号化する実時間単分子マッピングおよびオドメトリーシステムであるCOMOを提案する。
この表現は、カメラポーズと密な幾何学、本質的な3次元一貫性、効率的な2階推論の合同最適化を可能にする。
論文 参考訳(メタデータ) (2024-04-04T15:35:43Z) - Occ$^2$Net: Robust Image Matching Based on 3D Occupancy Estimation for
Occluded Regions [14.217367037250296]
Occ$2$Netは、3D占有率を用いて閉塞関係をモデル化し、閉塞領域の一致点を推測する画像マッチング手法である。
本手法は実世界とシミュレーションデータセットの両方で評価し,いくつかの指標における最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-14T13:09:41Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - DGC-GNN: Leveraging Geometry and Color Cues for Visual Descriptor-Free 2D-3D Matching [39.461400537109895]
画像中の2Dキーポイントとシーンのスパースな3Dポイントクラウドとを視覚ディスクリプタを必要とせずにマッチングすることは、関心の高まりを招いている。
DGC-GNNは,鍵点を表すために幾何学的および色彩的キューを利用する新しいアルゴリズムであり,マッチング精度が向上する。
我々は、DGC-GNNを屋内と屋外の両方のデータセットで評価し、最先端のビジュアルディスクリプタフリーアルゴリズムの精度を2倍にするだけでなく、ディスクリプタベースとディスクリプタフリー手法のパフォーマンスギャップを大幅に狭めることを示した。
論文 参考訳(メタデータ) (2023-06-21T20:21:15Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - Explicit3D: Graph Network with Spatial Inference for Single Image 3D
Object Detection [35.85544715234846]
本稿では,オブジェクトの幾何学的特徴と意味論的特徴に基づいて,Explicit3Dという動的スパースグラフパイプラインを提案する。
SUN RGB-Dデータセットによる実験結果から,我々のExplicit3Dは最先端技術よりも優れた性能バランスを実現することが示された。
論文 参考訳(メタデータ) (2023-02-13T16:19:54Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z) - Learning Geometry-Disentangled Representation for Complementary
Understanding of 3D Object Point Cloud [50.56461318879761]
3次元画像処理のためのGDANet(Geometry-Disentangled Attention Network)を提案する。
GDANetは、点雲を3Dオブジェクトの輪郭と平らな部分に切り離し、それぞれ鋭い変化成分と穏やかな変化成分で表される。
3Dオブジェクトの分類とセグメンテーションベンチマークの実験は、GDANetがより少ないパラメータで最先端の処理を実現していることを示している。
論文 参考訳(メタデータ) (2020-12-20T13:35:00Z) - Dense Non-Rigid Structure from Motion: A Manifold Viewpoint [162.88686222340962]
Non-Rigid Structure-from-Motion (NRSfM) 問題は、複数のフレームにまたがる2次元特徴対応から変形物体の3次元形状を復元することを目的としている。
提案手法は,ノイズに対する精度,スケーラビリティ,堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2020-06-15T09:15:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。