論文の概要: Copy-Trasform-Paste: Zero-Shot Object-Object Alignment Guided by Vision-Language and Geometric Constraints
- arxiv url: http://arxiv.org/abs/2601.14207v1
- Date: Tue, 20 Jan 2026 18:12:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.443359
- Title: Copy-Trasform-Paste: Zero-Shot Object-Object Alignment Guided by Vision-Language and Geometric Constraints
- Title(参考訳): Copy-Trasform-Paste:視覚言語と幾何学的制約によるゼロショットオブジェクトアライメント
- Authors: Rotem Gatenyo, Ohad Fried,
- Abstract要約: 2つのメッシュのゼロショット3Dアライメントについて,その関係を記述したテキストプロンプトを用いて検討した。
テスト時の相対的なポーズの最適化,翻訳,回転,等方的スケールの更新,CLIP駆動の勾配による検討を行った。
我々の手法は、意味論的に忠実で物理的に妥当なアライメントをもたらす全ての代替手段より優れています。
- 参考スコア(独自算出の注目度): 12.704390013489054
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study zero-shot 3D alignment of two given meshes, using a text prompt describing their spatial relation -- an essential capability for content creation and scene assembly. Earlier approaches primarily rely on geometric alignment procedures, while recent work leverages pretrained 2D diffusion models to model language-conditioned object-object spatial relationships. In contrast, we directly optimize the relative pose at test time, updating translation, rotation, and isotropic scale with CLIP-driven gradients via a differentiable renderer, without training a new model. Our framework augments language supervision with geometry-aware objectives: a variant of soft-Iterative Closest Point (ICP) term to encourage surface attachment and a penetration loss to discourage interpenetration. A phased schedule strengthens contact constraints over time, and camera control concentrates the optimization on the interaction region. To enable evaluation, we curate a benchmark containing diverse categories and relations, and compare against baselines. Our method outperforms all alternatives, yielding semantically faithful and physically plausible alignments.
- Abstract(参考訳): 本研究では,2つのメッシュのゼロショット3Dアライメントについて,その空間的関係を記述したテキストプロンプトを用いて検討する。
従来のアプローチは主に幾何学的アライメントの手順に依存していたが、最近の研究は、事前訓練された2次元拡散モデルを利用して言語条件のオブジェクト空間関係をモデル化している。
対照的に、テスト時の相対的なポーズを直接最適化し、新しいモデルをトレーニングすることなく、CLIP駆動の勾配で変換、回転、等方的スケールを更新する。
我々のフレームワークは、幾何学的対象を意識した言語管理を強化し、表面のアタッチメントを促進するためのICP(Soft-Iterative Closest Point)用語の変種と、インターペネレーションを回避するための浸透損失を誘導する。
位相スケジュールは時間とともに接触制約を強化し、カメラ制御は相互作用領域の最適化に集中する。
評価を実現するため,多様なカテゴリや関係を含むベンチマークをキュレートし,ベースラインと比較する。
我々の手法は、意味論的に忠実で物理的に妥当なアライメントをもたらす全ての代替手段より優れています。
関連論文リスト
- Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes [69.4534914304302]
本研究では,シーン内のオブジェクトのテキストによる空間変換を行うフレームワークであるTalk2Moveを紹介する。
Talk2Moveでは,さまざまなロールアウトを通じて幾何学的アクションを探索するために,グループ相対ポリシー最適化を採用している。
キュレートされたベンチマークの実験では、Talk2Moveは正確で一貫性があり、セマンティックに忠実なオブジェクト変換を実現している。
論文 参考訳(メタデータ) (2026-01-05T18:55:32Z) - Video Spatial Reasoning with Object-Centric 3D Rollout [58.12446467377404]
我々は,ロバストなビデオ空間推論を実現するために,OCR(Object-Centric 3D Rollout)を提案する。
OCRは、トレーニング中に選択した物体の3次元形状に構造的摂動を導入する。
OCRはモデルを補完し、全体にわたって論理的にソートする。
論文 参考訳(メタデータ) (2025-11-17T09:53:41Z) - Follow My Hold: Hand-Object Interaction Reconstruction through Geometric Guidance [61.41904916189093]
単眼RGB画像から手持ち物体の3次元形状を再構成する拡散法に基づく新しいフレームワークを提案する。
我々は手オブジェクト間相互作用を幾何学的ガイダンスとして使用し、手オブジェクト間相互作用を確実にする。
論文 参考訳(メタデータ) (2025-08-25T17:11:53Z) - Why Settle for Mid: A Probabilistic Viewpoint to Spatial Relationship Alignment in Text-to-image Models [3.5999252362400993]
構成生成における主要な問題は、空間的関係の不整合である。
本研究では,テキストと画像間の2次元空間関係と3次元空間関係のアライメントを評価するための新しい評価指標を提案する。
また,T2Iモデルにおける2次元空間関係と3次元空間関係のアライメントを微調整を必要とせずに改善する推定時間であるPoSベースの生成を提案する。
論文 参考訳(メタデータ) (2025-06-29T22:41:27Z) - SeMv-3D: Towards Concurrency of Semantic and Multi-view Consistency in General Text-to-3D Generation [122.47961178994456]
SeMv-3Dは、GT23D生成におけるセマンティックアライメントとマルチビュー一貫性を協調的に強化する新しいフレームワークである。
本稿では,TPL(Triplane Prior Learning)について紹介する。
我々はまた、一貫した任意のビュー合成を可能にする、三葉飛行機(SAT)における事前ベースセマンティックアライニング(Semantic Aligning)を提案する。
論文 参考訳(メタデータ) (2024-10-10T07:02:06Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。