論文の概要: TrianguLang: Geometry-Aware Semantic Consensus for Pose-Free 3D Localization
- arxiv url: http://arxiv.org/abs/2603.08096v2
- Date: Fri, 13 Mar 2026 12:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 13:35:07.45723
- Title: TrianguLang: Geometry-Aware Semantic Consensus for Pose-Free 3D Localization
- Title(参考訳): TrianguLang: Pose-Free 3Dローカライゼーションのための幾何学的セマンティック・コンセンサス
- Authors: Bryce Grant, Aryeh Rothenberg, Atri Banerjee, Peng Wang,
- Abstract要約: TrianguLangは3Dローカライゼーションのためのフィードフォワードフレームワークで、推論時にカメラのキャリブレーションを必要としない。
最先端のフィードフォワードテキスト誘導セグメンテーションとローカライゼーションを実現し、ユーザの労力を$O(N)$から1つのテキストクエリに削減する。
モデルは各フレームを1008x1008の解像度で、最適化なしで57ms (sim$18 FPS)で処理し、対話型ロボティクスやARアプリケーションに実用的なデプロイを可能にする。
- 参考スコア(独自算出の注目度): 2.3194244059136895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Localizing objects and parts from natural language in 3D space is essential for robotics, AR, and embodied AI, yet existing methods face a trade-off between the accuracy and geometric consistency of per-scene optimization and the efficiency of feed-forward inference. We present TrianguLang, a feed-forward framework for 3D localization that requires no camera calibration at inference. Unlike prior methods that treat views independently, we introduce Geometry-Aware Semantic Attention (GASA), which utilizes predicted geometry to gate cross-view feature correspondence, suppressing semantically plausible but geometrically inconsistent matches without requiring ground-truth poses. Validated on five benchmarks including ScanNet++ and uCO3D, TrianguLang achieves state-of-the-art feed-forward text-guided segmentation and localization, reducing user effort from $O(N)$ clicks to a single text query. The model processes each frame at 1008x1008 resolution in $\sim$57ms ($\sim$18 FPS) without optimization, enabling practical deployment for interactive robotics and AR applications. Code and checkpoints are available at https://cwru-aism.github.io/triangulang/.
- Abstract(参考訳): 3D空間における自然言語からのオブジェクトや部分のローカライズは、ロボティクス、AR、エンボディAIにとって不可欠だが、既存の手法では、シーンごとの最適化の正確性と幾何学的一貫性とフィードフォワード推論の効率とのトレードオフに直面している。
推論時にカメラキャリブレーションを必要としない3DローカライゼーションのためのフィードフォワードフレームワークであるTrianguLangを提案する。
ビューを独立に扱う従来の方法とは違い,予測幾何を利用してクロスビュー特徴対応をゲートし,地味のポーズを必要とせず,意味論的に妥当だが幾何学的に不整合性を抑える幾何学的意味的意味的注意(Geometry-Aware Semantic Attention, GASA)を導入する。
ScanNet++とuCO3Dを含む5つのベンチマークで検証されたTrianguLangは、最先端のフィードフォワードテキスト誘導セグメンテーションとローカライゼーションを実現し、ユーザの労力をO(N)$クリックから単一のテキストクエリに削減した。
モデルは各フレームを1008x1008の解像度で、最適化なしで57ms(18FPS)で処理し、対話型ロボティクスやARアプリケーションに実用的なデプロイを可能にする。
コードとチェックポイントはhttps://cwru-aism.github.io/triangulang/。
関連論文リスト
- Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation [53.09168514034483]
バイマン操作は3次元幾何学を推論し、動作中にどのように進化するかを予測し、滑らかで協調された動きを生成するポリシーを必要とする。
本稿では,事前学習した3次元幾何学的基礎モデルに基づいて,バイマン操作を直接構築するフレームワークを提案する。
我々の政策は、幾何学的認識の潜伏子、2次元意味的特徴、およびプロプレセプションを統一状態表現に融合させ、拡散モデルを用いて将来のアクションチャンクと、密度の高いポイントマップにデコードする未来の3次元潜伏子を共同で予測する。
論文 参考訳(メタデータ) (2026-02-27T08:54:20Z) - Unified Semantic Transformer for 3D Scene Understanding [55.415468022487005]
我々は、単一のモデル内に多様な3Dセマンティックタスクを統一する新しいフィードフォワードニューラルネットワークUNITEを紹介する。
我々のモデルは、完全なエンドツーエンドで見えないシーンで動作し、完全な3Dセマンティックジオメトリを推測するのにほんの数秒しかかからない。
UNITEはいくつかの異なる意味的タスクにおいて最先端のパフォーマンスを達成し、タスク固有のモデルよりも優れていることを実証する。
論文 参考訳(メタデータ) (2025-12-16T12:49:35Z) - Task-Aware 3D Affordance Segmentation via 2D Guidance and Geometric Refinement [12.260126771415019]
タスク対応型3次元シーンアフォーダンスセグメンテーション(TASA)について紹介する。
TASAは2次元のセマンティックキューと3次元の幾何学的推論を粗い方法で併用する新しい幾何学最適化フレームワークである。
3次元幾何情報を完全に活用するために、局所的な3次元幾何と2次元セマンティック先行情報を統合するために、3次元アベイランス改良モジュールを提案する。
論文 参考訳(メタデータ) (2025-11-12T13:36:37Z) - Gen-LangSplat: Generalized Language Gaussian Splatting with Pre-Trained Feature Compression [0.0]
我々は,シーンワイドオートエンコーダを汎用オートエンコーダに置き換えるGen-LangSplatを導入し,大規模ScanNetデータセット上で広範囲に事前トレーニングを行った。
このアーキテクチャシフトにより、シーン固有のトレーニングを必要とせずに、新しいシーンにまたがる言語機能に対して、固定的でコンパクトな潜在空間を使用できるようになる。
以上の結果から,新しい3次元シーンにおけるオープン語彙クエリを効率よく,かつ正確に支援できることが示唆された。
論文 参考訳(メタデータ) (2025-10-27T02:13:38Z) - AlignGS: Aligning Geometry and Semantics for Robust Indoor Reconstruction from Sparse Views [18.361136390711415]
屋内シーンのセマンティックにリッチな3Dモデルへの需要は急速に増加しており、拡張現実、仮想現実、ロボット工学の応用によって推進されている。
既存の手法は、しばしば意味論を、既に形成され、潜在的に欠陥のある幾何学に描かれた受動的特徴として扱う。
本稿では、このビジョンを実現する新しいフレームワークであるAlignGSを紹介し、幾何学と意味論の相乗的でエンドツーエンドの最適化を開拓する。
論文 参考訳(メタデータ) (2025-10-09T06:30:20Z) - SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - Easy3D: A Simple Yet Effective Method for 3D Interactive Segmentation [10.2138250640885]
本稿では,ドメイン内およびドメイン外両方のデータセットにおいて,従来の最先端技術を上回る3次元インタラクティブセグメンテーション手法を提案する。
我々の単純なアプローチは、Voxelベースのスパースエンコーダと、暗黙のクリック融合を実装した軽量なトランスフォーマーベースのデコーダを統合する。
提案手法は,ScanNet,ScanNet++,S3DIS,KITTI-360など,ベンチマークデータセットの大幅な改善を示す。
論文 参考訳(メタデータ) (2025-04-15T09:49:51Z) - SLGaussian: Fast Language Gaussian Splatting in Sparse Views [15.0280871846496]
スパース視点から3次元意味体を構築するフィードフォワード手法であるSLGaussianを提案する。
SLGaussianは、3D空間に言語情報を効率よく埋め込むことができ、スパースビュー条件下で正確な3Dシーン理解のための堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2024-12-11T12:18:30Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。