論文の概要: Skip-and-Play: Depth-Driven Pose-Preserved Image Generation for Any Objects
- arxiv url: http://arxiv.org/abs/2409.02653v1
- Date: Wed, 4 Sep 2024 12:28:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 18:26:46.845636
- Title: Skip-and-Play: Depth-Driven Pose-Preserved Image Generation for Any Objects
- Title(参考訳): Skip-and-Play: 任意のオブジェクトに対する深さ駆動型Pose保存画像生成
- Authors: Kyungmin Jo, Jaegul Choo,
- Abstract要約: 単一深度推定モデルから深度マップを容易に得ることができるため,深度に基づくポーズ制御を提案する。
奥行きマップはポーズだけでなく、生成された画像の形状にも影響を及ぼすため、奥行きベースのポーズ制御は形状依存性の問題に直面する。
本研究では,深度条件制御ネットの3成分が生成画像のポーズと形状に与える影響を分析することで,Skip-and-Play (SnP) を実証する。
- 参考スコア(独自算出の注目度): 37.439601647422236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of diffusion models has enabled the generation of diverse high-quality images solely from text, prompting subsequent efforts to enhance the controllability of these models. Despite the improvement in controllability, pose control remains limited to specific objects (e.g., humans) or poses (e.g., frontal view) due to the fact that pose is generally controlled via camera parameters (e.g., rotation angle) or keypoints (e.g., eyes, nose). Specifically, camera parameters-conditional pose control models generate unrealistic images depending on the object, owing to the small size of 3D datasets for training. Also, keypoint-based approaches encounter challenges in acquiring reliable keypoints for various objects (e.g., church) or poses (e.g., back view). To address these limitations, we propose depth-based pose control, as depth maps are easily obtainable from a single depth estimation model regardless of objects and poses, unlike camera parameters and keypoints. However, depth-based pose control confronts issues of shape dependency, as depth maps influence not only the pose but also the shape of the generated images. To tackle this issue, we propose Skip-and-Play (SnP), designed via analysis of the impact of three components of depth-conditional ControlNet on the pose and the shape of the generated images. To be specific, based on the analysis, we selectively skip parts of the components to mitigate shape dependency on the depth map while preserving the pose. Through various experiments, we demonstrate the superiority of SnP over baselines and showcase the ability of SnP to generate images of diverse objects and poses. Remarkably, SnP exhibits the ability to generate images even when the objects in the condition (e.g., a horse) and the prompt (e.g., a hedgehog) differ from each other.
- Abstract(参考訳): 拡散モデルの出現により、テキストのみから多様な高品質な画像が生成されるようになり、これらのモデルの制御性を高める努力が進められた。
制御性の改善にもかかわらず、ポーズコントロールは特定の物体(例えば、人間)やポーズ(例えば、正面視)に限られており、ポーズは一般的にカメラパラメータ(例えば、回転角)やキーポイント(例えば、目、鼻)によって制御される。
特に、カメラパラメータ-条件付きポーズ制御モデルは、トレーニング用の3Dデータセットの小さなサイズのため、オブジェクトに応じて非現実的な画像を生成する。
また、キーポイントベースのアプローチは、様々なオブジェクト(例えば、教会)やポーズ(例えば、バックビュー)の信頼できるキーポイントを取得する際の課題に直面する。
これらの制約に対処するため、カメラパラメータやキーポイントとは異なり、物体やポーズに関わらず、深度マップが単一の深度推定モデルから容易に得ることができるように、深度に基づくポーズ制御を提案する。
しかし、奥行きマップはポーズだけでなく、生成された画像の形状にも影響を及ぼすため、奥行きベースのポーズ制御は形状依存性の問題に直面している。
そこで本研究では,深度条件制御ネットの3成分が生成画像のポーズと形状に与える影響を分析することによって,Skip-and-Play(SnP)を提案する。
分析により,ポーズを保ちながら奥行きマップの形状依存性を緩和するため,部品の一部を選択的にスキップする。
様々な実験を通じて,SnPがベースラインよりも優れていることを示すとともに,多様なオブジェクトやポーズの画像を生成するSnPの能力を示す。
SnPは、条件(eg,馬)とプロンプト(eg,ヘッジホッグ)が異なる場合でも、画像を生成する能力を示す。
関連論文リスト
- Extreme Two-View Geometry From Object Poses with Diffusion Models [21.16779160086591]
オブジェクト先行のパワーを利用して、極端な視点変化に直面した2次元幾何学を正確に決定する。
実験では, 大局的な視点変化に対して, 突如として頑健さと弾力性を示した。
論文 参考訳(メタデータ) (2024-02-05T08:18:47Z) - Depth-based 6DoF Object Pose Estimation using Swin Transformer [1.14219428942199]
オブジェクトの6Dポーズを正確に推定することは、ロボットの把握、自律運転、拡張現実など、多くのアプリケーションにとって不可欠である。
深度画像からの幾何情報のみを用いて正確な6次元ポーズ推定を行うSwinDePoseという新しいフレームワークを提案する。
LineModおよびOcclusion LineModデータセットの実験において、SwinDePoseは深度画像を用いた6Dオブジェクトのポーズ推定のための既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-03-03T18:25:07Z) - Sparse Pose Trajectory Completion [87.31270669154452]
サンプルの少ないビューにのみオブジェクトが出現するデータセットを使用しても学習する方法を提案する。
これはクロスモーダルポーズ軌道伝達機構によって実現される。
この手法はPix3DおよびShapeNetデータセット上で評価される。
論文 参考訳(メタデータ) (2021-05-01T00:07:21Z) - DSC-PoseNet: Learning 6DoF Object Pose Estimation via Dual-scale
Consistency [43.09728251735362]
2Dオブジェクト境界ボックスから6DoFオブジェクトポーズを得るための2ステップポーズ推定フレームワークを提案する。
最初のステップでは、フレームワークはオブジェクトを実際のデータと合成データからセグメンテーションすることを学ぶ。
第2のステップでは,dsc-posenetという,デュアルスケールなポーズ推定ネットワークを設計する。
提案手法は,合成データに基づいて訓練した最先端のモデルよりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2021-04-08T10:19:35Z) - Back to the Feature: Learning Robust Camera Localization from Pixels to
Pose [114.89389528198738]
画像と3Dモデルから正確な6-DoFのポーズを推定するシーンに依存しないニューラルネットワークPixLocを導入する。
このシステムは、粗いポーズ前の大きな環境でもローカライズできるが、スパース特徴マッチングの精度も向上する。
論文 参考訳(メタデータ) (2021-03-16T17:40:12Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - CosyPose: Consistent multi-view multi-object 6D pose estimation [48.097599674329004]
単視点単体6次元ポーズ推定法を提案し、6次元オブジェクトのポーズ仮説を生成する。
第2に、異なる入力画像間で個々の6次元オブジェクトのポーズをマッチングするロバストな手法を開発する。
第3に、複数のオブジェクト仮説とそれらの対応性を考慮したグローバルなシーン改善手法を開発した。
論文 参考訳(メタデータ) (2020-08-19T14:11:56Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Object-Centric Image Generation with Factored Depths, Locations, and
Appearances [30.541425619507184]
本稿では,画像の生成モデルについて,それらが示すオブジェクトの集合に対して明確な理由付けを行う。
私たちのモデルは、オブジェクトを互いに、そして背景から分離する構造化潜在表現を学びます。
オブジェクトマスクや深度情報を必要とせずに、純粋に教師なしの方法で画像からトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-01T18:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。