論文の概要: RelaxFlow: Text-Driven Amodal 3D Generation
- arxiv url: http://arxiv.org/abs/2603.05425v1
- Date: Thu, 05 Mar 2026 17:45:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.353072
- Title: RelaxFlow: Text-Driven Amodal 3D Generation
- Title(参考訳): RelaxFlow: テキスト駆動のアモーダル3D生成
- Authors: Jiayin Zhu, Guoji Fu, Xiaolu Liu, Qiyuan He, Yicong Li, Angela Yao,
- Abstract要約: 我々はテキスト駆動のアモーダル3D生成を形式化し、テキストは入力観察を厳格に保ちながら未確認領域の完成を促す。
RelaxFlowは、マルチプライア・コンセンサス・モジュールと緩和機構を介して粒度を分離する、トレーニング不要のデュアルブランチ・フレームワークである。
- 参考スコア(独自算出の注目度): 44.608249315895826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-3D generation faces inherent semantic ambiguity under occlusion, where partial observation alone is often insufficient to determine object category. In this work, we formalize text-driven amodal 3D generation, where text prompts steer the completion of unseen regions while strictly preserving input observation. Crucially, we identify that these objectives demand distinct control granularities: rigid control for the observation versus relaxed structural control for the prompt. To this end, we propose RelaxFlow, a training-free dual-branch framework that decouples control granularity via a Multi-Prior Consensus Module and a Relaxation Mechanism. Theoretically, we prove that our relaxation is equivalent to applying a low-pass filter on the generative vector field, which suppresses high-frequency instance details to isolate geometric structure that accommodates the observation. To facilitate evaluation, we introduce two diagnostic benchmarks, ExtremeOcc-3D and AmbiSem-3D. Extensive experiments demonstrate that RelaxFlow successfully steers the generation of unseen regions to match the prompt intent without compromising visual fidelity.
- Abstract(参考訳): 画像から3Dへの生成は、対象のカテゴリーを決定するのに部分的な観察だけでは不十分な、隠蔽下で固有の意味的あいまいさに直面している。
本研究では,テキスト駆動型アモーダル3D生成を形式化し,テキストは入力観察を厳格に保ちつつ,未確認領域の完了を促す。
重要なことは、これらの目的が、観察のための剛性制御と、プロンプトのための緩やかな構造制御という、異なる制御粒度を必要とすることである。
この目的のために,マルチプライア・コンセンサス・モジュールと緩和機構を用いて粒度を分離するトレーニングフリーのデュアルブランチ・フレームワークであるRelaxFlowを提案する。
理論的には、我々の緩和は生成ベクトル場に低域フィルタを適用することと等価であることを示す。
評価を容易にするため,ExtremeOcc-3DとAmbiSem-3Dという2つの診断ベンチマークを導入した。
広範囲にわたる実験により、RelaxFlowは視覚的忠実さを損なうことなく、目立たない領域の生成を即興の意図に合わせることに成功した。
関連論文リスト
- StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - From Flight to Insight: Semantic 3D Reconstruction for Aerial Inspection via Gaussian Splatting and Language-Guided Segmentation [3.0477617036157136]
高忠実度3D再構成は, インフラ監視, 構造評価, 環境調査などの航空検査業務において重要である。
従来のフォトグラム法は幾何学的モデリングを可能にするが、意味論的解釈性に欠け、自動検査の有効性を制限している。
ニューラルレンダリングと3Dガウススプラッティング(3DGS)の最近の進歩は、効率的でフォトリアリスティックな再構築を提供するが、同様にシーンレベルの理解が欠如している。
言語誘導型3DセグメンテーションのためにFeature-3DGSを拡張するUAVベースのパイプラインを提案する。
論文 参考訳(メタデータ) (2025-05-23T02:35:46Z) - Cyc3D: Fine-grained Controllable 3D Generation via Cycle Consistency Regularization [22.087256225772734]
nameは、生成された3Dコンテンツと入力制御の間の循環的な一貫性を促進することで、制御可能な3D生成を促進する。
emphViewの一貫性は、2つの生成された3Dオブジェクト間のコヒーレンスを保証する。
emphCondition整合性は、最終的な抽出信号と元の入力制御とを整合させ、構造的または幾何学的詳細を保存する。
論文 参考訳(メタデータ) (2025-04-21T09:05:52Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - SP3D: Boosting Sparsely-Supervised 3D Object Detection via Accurate Cross-Modal Semantic Prompts [13.349110509879312]
スパース制御された3Dオブジェクト検出は注目され、完全に教師された3Dオブジェクト・オブジェクタに近い性能を実現している。
本研究では,スパースアノテーション設定下での頑健な特徴識別機能を備えた3D検出器の強化を目的とした,SP3Dと呼ばれるブースティング戦略を提案する。
実験により、SP3Dはわずかに観察された検出器の性能を、平均的なラベル付け条件下で大きなマージンで向上させることができることが確認された。
論文 参考訳(メタデータ) (2025-03-09T06:08:04Z) - Self-Supervised 3D Scene Flow Estimation and Motion Prediction using
Local Rigidity Prior [100.98123802027847]
点群における3次元シーンフロー推定とクラス非依存動作予測について検討した。
我々は,一方向の剛性動作推定により,自己教師型学習のための擬似シーンフローラベルを生成する。
本手法は,自己監督型シーンフロー学習における最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-17T14:06:55Z) - Exploring Active 3D Object Detection from a Generalization Perspective [58.597942380989245]
不確実性に基づくアクティブな学習ポリシーは、ポイントクラウドの情報性とボックスレベルのアノテーションコストの間のトレードオフのバランスを取れません。
冗長な3次元境界ボックスラベルの点群を階層的にフィルタリングするtextscCrbを提案する。
実験により,提案手法が既存のアクティブラーニング戦略より優れていることが示された。
論文 参考訳(メタデータ) (2023-01-23T02:43:03Z) - Weakly Supervised Learning of Rigid 3D Scene Flow [81.37165332656612]
本研究では,剛体体として動くエージェント群によって説明できる3次元シーンを多用したデータ駆動シーンフロー推定アルゴリズムを提案する。
4種類の自律運転データセットにおいて,提案手法の有効性と一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-17T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。