論文の概要: ORIGEN: Zero-Shot 3D Orientation Grounding in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2503.22194v1
- Date: Fri, 28 Mar 2025 07:23:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:32:06.431217
- Title: ORIGEN: Zero-Shot 3D Orientation Grounding in Text-to-Image Generation
- Title(参考訳): ORIGEN:テキスト・ツー・イメージ・ジェネレーションにおけるゼロショット3次元配向グラウンド
- Authors: Yunhong Min, Daehyeon Choi, Kyeongmin Yeo, Jihyun Lee, Minhyuk Sung,
- Abstract要約: 我々は,テキスト・ツー・イメージ生成における3次元配向グラウンドディングのための最初のゼロショット手法であるORIGENを紹介する。
本稿では,事前学習による3次元方向推定モデルを用いた報酬誘導サンプリング手法を提案する。
実験の結果,ORIGENはトレーニングベースとテストタイムの指導方法の両方で,定量的な測定値やユーザスタディよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 21.317316753094488
- License:
- Abstract: We introduce ORIGEN, the first zero-shot method for 3D orientation grounding in text-to-image generation across multiple objects and diverse categories. While previous work on spatial grounding in image generation has mainly focused on 2D positioning, it lacks control over 3D orientation. To address this, we propose a reward-guided sampling approach using a pretrained discriminative model for 3D orientation estimation and a one-step text-to-image generative flow model. While gradient-ascent-based optimization is a natural choice for reward-based guidance, it struggles to maintain image realism. Instead, we adopt a sampling-based approach using Langevin dynamics, which extends gradient ascent by simply injecting random noise--requiring just a single additional line of code. Additionally, we introduce adaptive time rescaling based on the reward function to accelerate convergence. Our experiments show that ORIGEN outperforms both training-based and test-time guidance methods across quantitative metrics and user studies.
- Abstract(参考訳): 我々は,複数のオブジェクトと多様なカテゴリにまたがるテキスト・ツー・イメージ生成において,最初の3次元指向グラウンドディングのゼロショット手法であるORIGENを紹介する。
画像生成における空間的接地に関するこれまでの研究は、主に2次元位置決めに焦点を当ててきたが、3次元方向の制御に欠けていた。
そこで本研究では,3次元方向推定のための事前学習型識別モデルと1ステップのテキスト・ツー・イメージ生成フローモデルを用いて,報酬誘導型サンプリング手法を提案する。
勾配に基づく最適化は報酬に基づくガイダンスの自然な選択であるが、イメージリアリズムを維持するのに苦労している。
代わりに、ランダムなノイズを注入するだけで勾配上昇を延長するLangevin dynamicsを使ったサンプリングベースのアプローチを採用しています。
さらに,コンバージェンスを高速化するために,報酬関数に基づく適応時間再スケーリングを導入する。
実験の結果,ORIGENはトレーニングベースとテストタイムの指導方法の両方で,定量的な測定値やユーザスタディよりも優れていることがわかった。
関連論文リスト
- FlowDreamer: Exploring High Fidelity Text-to-3D Generation via Rectified Flow [17.919092916953183]
本研究では,フロードレーマーという新しいフレームワークを提案し,よりリッチなテキストの詳細とより高速なコンバージェンスで高忠実度な結果を得る。
鍵となる洞察は、修正流れモデルの結合性と可逆性を利用して、対応する雑音を探索することである。
我々は,同じ軌道に沿って3次元モデルを最適化するために,新しい一様マッチング結合(UCM)損失を導入する。
論文 参考訳(メタデータ) (2024-08-09T11:40:20Z) - Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [62.99706119370521]
人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。
そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T16:01:10Z) - VividDreamer: Towards High-Fidelity and Efficient Text-to-3D Generation [69.68568248073747]
拡散に基づく3次元生成タスクにおいて, ポーズ依存型連続蒸留サンプリング (PCDS) を提案する。
PCDSは拡散軌道内でポーズ依存整合関数を構築し、最小サンプリングステップで真の勾配を近似することができる。
そこで我々は,まず1ステップのPCDSを用いて3Dオブジェクトの基本構造を作成し,さらに徐々にPCDSのステップを拡大して細かな細部を生成する,粗大な最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T08:21:52Z) - Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。
3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文 参考訳(メタデータ) (2023-07-27T16:07:03Z) - NeRF-Loc: Visual Localization with Conditional Neural Radiance Field [25.319374695362267]
暗黙の3次元記述子と変換器を用いた2次元画像との直接マッチングに基づく新しい視覚的再局在法を提案する。
実験により,本手法は,複数のベンチマークにおいて,他の学習手法よりも高い局所化精度を実現することが示された。
論文 参考訳(メタデータ) (2023-04-17T03:53:02Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - TriPlaneNet: An Encoder for EG3D Inversion [1.9567015559455132]
NeRFをベースとしたGANは、人間の頭部の高分解能かつ高忠実な生成モデリングのための多くのアプローチを導入している。
2D GANインバージョンのための普遍的最適化に基づく手法の成功にもかかわらず、3D GANに適用された手法は、結果を新しい視点に外挿することができないかもしれない。
本稿では,EG3D生成モデルに提示された3面表現を直接利用することにより,両者のギャップを埋める高速な手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:56:20Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z) - Learned Vertex Descent: A New Direction for 3D Human Model Fitting [64.04726230507258]
画像やスキャンに適合する3次元人体モデルのための新しい最適化手法を提案する。
われわれのアプローチは、非常に異なる体型を持つ服を着た人々の基盤となる身体を捉えることができ、最先端技術と比べて大きな改善を達成できる。
LVDはまた、人間と手の3次元モデル適合にも適用でき、よりシンプルで高速な方法でSOTAに大きな改善が示される。
論文 参考訳(メタデータ) (2022-05-12T17:55:51Z) - Using Adaptive Gradient for Texture Learning in Single-View 3D
Reconstruction [0.0]
3次元モデル再構築のための学習ベースのアプローチは、現代の応用によって注目を集めている。
本稿では,サンプリング画像のばらつきに基づいて予測座標の勾配を最適化し,新しいサンプリングアルゴリズムを提案する。
また,frechetインセプション距離(fid)を用いて学習における損失関数を形成し,レンダリング画像と入力画像とのギャップを橋渡しする。
論文 参考訳(メタデータ) (2021-04-29T07:52:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。