論文の概要: R$^3$L: Reasoning 3D Layouts from Relative Spatial Relations
- arxiv url: http://arxiv.org/abs/2605.06758v1
- Date: Thu, 07 May 2026 16:50:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.515877
- Title: R$^3$L: Reasoning 3D Layouts from Relative Spatial Relations
- Title(参考訳): R$3$L:相対的空間関係から3次元レイアウトを推論する
- Authors: Zhifeng Gu, Yuqi Wang, Bing Wang,
- Abstract要約: 相対空間関係は空間構造のコンパクトな表現を提供する。
最近の研究は、そのような関係を推測するためにマルチモーダルな大規模言語モデルを利用しているが、推論された関係はしばしば信頼できない。
3次元レイアウト生成のための相対空間推論の信頼性と一貫性を向上させる汎用フレームワークであるR$3$Lを提案する。
- 参考スコア(独自算出の注目度): 6.340163430891337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Relative spatial relations provide a compact representation of spatial structure and are fundamental to relative spatial reasoning in 3D layout generation. Recent works leverage Multimodal Large Language Models (MLLMs) to infer such relations, but the inferred relations are often unreliable and are typically handled with post-hoc heuristics. In this paper, we propose R$^3$L, a general framework that improves the reliability and consistency of relative spatial reasoning for 3D layout generation. Our key motivation is that multi-hop reasoning requires repeated reference-frame transformations, which accumulate errors in inferred relations and lead to semantic and metric drift. To mitigate this, we propose invariant spatial decomposition to break coupled relation chains, and consistent spatial imagination to promote self-consistency through an imagine-and-revise loop. We further introduce supportive spatial optimization to ease pose optimization via global-to-local coordinate re-parameterization. Extensive experiments across diverse scene types and instructions demonstrate that R$^3$L produces more physically feasible and semantically consistent layouts. Notably, our analysis shows that resolving frame-induced inconsistencies is crucial for reliable multi-hop relative spatial reasoning. The code is available at https://github.com/Neal2020GitHub/R3L.
- Abstract(参考訳): 相対空間関係は空間構造のコンパクトな表現を提供し、3次元レイアウト生成における相対空間推論の基本となる。
最近の研究では、マルチモーダル大言語モデル(MLLM)を用いてそのような関係を推測しているが、推論された関係はしばしば信頼できないものであり、一般的にポストホックヒューリスティックスで扱われる。
本稿では,3次元レイアウト生成のための相対空間推論の信頼性と一貫性を向上させる汎用フレームワークであるR$^3$Lを提案する。
我々の主要な動機は、マルチホップ推論は、推論された関係における誤りを蓄積し、意味論的および計量的ドリフトにつながる、繰り返し参照フレーム変換を必要とすることである。
これを緩和するために、結合された関係連鎖を分解するための不変空間分解と、想像と修正のループを通して自己整合性を促進するための一貫した空間想像を提案する。
さらに、グローバル-ローカル座標再パラメータ化によるポーズ最適化を容易にするための支援空間最適化も導入する。
R$^3$Lは、より物理的に実現可能で意味論的に一貫したレイアウトを生成する。
特に, フレームによる不整合の解消は, 信頼性の高いマルチホップ相対空間推論において重要であることを示す。
コードはhttps://github.com/Neal2020GitHub/R3Lで公開されている。
関連論文リスト
- Empowering Heterogeneous Graph Foundation Models via Decoupled Relation Alignment [20.128308877213044]
Decoupled Relation Subspace Alignment (DRSA)は、新しいプラグアンドプレイ関係駆動フレームワークである。
特徴的意味論を関係構造から切り離すことによってパラダイムを根本的にシフトさせる。
ユニバーサルプリプロセッシングモジュールとしてシームレスに統合することができる。
論文 参考訳(メタデータ) (2026-05-01T15:31:36Z) - SpatiO: Adaptive Test-Time Orchestration of Vision-Language Agents for Spatial Reasoning [18.3204772691015]
空間的推論には、入力に応じて異なる戦略を柔軟に調整する必要がある。
既存のアプローチのほとんどは、固定空間を暗黙的に学習する単一の推論パイプラインに依存している。
空間推論のための異種多エージェントフレームワークであるSpatiOを導入し、複数の視覚言語の専門家と相補的帰納バイアスを協調する。
論文 参考訳(メタデータ) (2026-04-23T01:19:37Z) - Pair2Scene: Learning Local Object Relations for Procedural Scene Generation [10.247549170637418]
Pair2Sceneは、学習したローカルルールとシーン階層と物理ベースのアルゴリズムを統合する新しい手続き生成フレームワークである。
私たちのフレームワークは、トレーニングデータを超えた複雑な環境を生成する上で、既存の手法よりも優れています。
論文 参考訳(メタデータ) (2026-04-13T17:59:55Z) - Scalable Object Relation Encoding for Better 3D Spatial Reasoning in Large Language Models [50.14156501544165]
空間的推論は3次元シーンにおける空間的関係に基づく対象物の位置決めに焦点を当てる。
従来のアプローチでは、大規模言語モデルの入力空間に3Dシーン表現を注入しようと試みてきた。
オブジェクト数に線形な入力長を持つ新しい位置埋め込み法であるQuatRoPEを提案する。
論文 参考訳(メタデータ) (2026-03-25T18:46:23Z) - SSR: Pushing the Limit of Spatial Intelligence with Structured Scene Reasoning [30.87517633729756]
SSRはStructured Scene Reasoning用に設計されたフレームワークである。
軽量アライメント機構によって2Dと3Dの表現をシームレスに統合する。
複数の空間インテリジェンスベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-28T02:05:35Z) - TALO: Pushing 3D Vision Foundation Models Towards Globally Consistent Online Reconstruction [57.46712611558817]
3次元視覚基礎モデルでは、1つのフィードフォワードパスを通して、未校正画像からキー3D属性を再構成する際の強力な一般化が示されている。
近年の戦略は,グローバルトランスフォーメーションの解決によって連続的な予測と整合するが,本分析では,仮定の妥当性,局所的なアライメント範囲,雑音的幾何の下でのロバスト性といった基本的な限界を明らかにしている。
本研究では,グローバルに伝播する制御点を利用して空間的に異なる不整合を補正する,Tin Plate Splineに基づく高DOFおよび長期アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-02T02:22:20Z) - HierRelTriple: Guiding Indoor Layout Generation with Hierarchical Relationship Triplet Losses [52.70183252341687]
本稿では,空間的関係学習に着目した階層型三重項に基づく屋内関係学習手法HierRelTripleを提案する。
階層型リレーショナル三重項モデリングフレームワークであるHierRelTripleを導入する。
非条件レイアウト合成、フロアプラン条件付きレイアウト生成、シーン再構成の実験により、HierRelは空間関係のメトリクスを15%以上改善することを示した。
論文 参考訳(メタデータ) (2025-03-26T07:31:52Z) - A Scalable Combinatorial Solver for Elastic Geometrically Consistent 3D
Shape Matching [69.14632473279651]
本稿では,3次元形状間の幾何学的一貫したマッピング空間をグローバルに最適化するスケーラブルなアルゴリズムを提案する。
従来の解法よりも数桁高速なラグランジュ双対問題と結合した新しい原始問題を提案する。
論文 参考訳(メタデータ) (2022-04-27T09:47:47Z) - Rel3D: A Minimally Contrastive Benchmark for Grounding Spatial Relations
in 3D [71.11034329713058]
既存のデータセットには、大規模で高品質な3D地上真実情報がない。
Rel3Dは、空間関係を3Dでグラウンド化するための、最初の大規模で人間による注釈付きデータセットである。
我々は、データセットバイアスを減らすための新しいクラウドソーシング手法である、最小限のコントラストデータ収集を提案する。
論文 参考訳(メタデータ) (2020-12-03T01:51:56Z) - Dense Non-Rigid Structure from Motion: A Manifold Viewpoint [162.88686222340962]
Non-Rigid Structure-from-Motion (NRSfM) 問題は、複数のフレームにまたがる2次元特徴対応から変形物体の3次元形状を復元することを目的としている。
提案手法は,ノイズに対する精度,スケーラビリティ,堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2020-06-15T09:15:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。