Fugu-MT 論文翻訳(概要): SINGAPO: Single Image Controlled Generation of Articulated Parts in Object

論文の概要: SINGAPO: Single Image Controlled Generation of Articulated Parts in Object

arxiv url: http://arxiv.org/abs/2410.16499v1
Date: Mon, 21 Oct 2024 20:41:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.760149
Title: SINGAPO: Single Image Controlled Generation of Articulated Parts in Object
Title（参考訳）: SINGAPO: 物体内の人工部品の単一画像制御による生成
Authors: Jiayi Liu, Denys Iliash, Angel X. Chang, Manolis Savva, Ali Mahdavi-Amiri,
Abstract要約: 本稿では,単一画像から音声オブジェクトを生成する手法を提案する。提案手法は,入力画像と視覚的に一致した音声オブジェクトを生成する。実験の結果,本手法は音声によるオブジェクト生成における最先端の手法よりも優れていることがわかった。
参考スコア（独自算出の注目度）: 20.978091381109294
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We address the challenge of creating 3D assets for household articulated objects from a single image. Prior work on articulated object creation either requires multi-view multi-state input, or only allows coarse control over the generation process. These limitations hinder the scalability and practicality for articulated object modeling. In this work, we propose a method to generate articulated objects from a single image. Observing the object in resting state from an arbitrary view, our method generates an articulated object that is visually consistent with the input image. To capture the ambiguity in part shape and motion posed by a single view of the object, we design a diffusion model that learns the plausible variations of objects in terms of geometry and kinematics. To tackle the complexity of generating structured data with attributes in multiple domains, we design a pipeline that produces articulated objects from high-level structure to geometric details in a coarse-to-fine manner, where we use a part connectivity graph and part abstraction as proxies. Our experiments show that our method outperforms the state-of-the-art in articulated object creation by a large margin in terms of the generated object realism, resemblance to the input image, and reconstruction quality.
Abstract（参考訳）: 1枚の画像から3Dアセットを作成するという課題に対処する。オーケストレートオブジェクト生成の以前の作業では、マルチビューのマルチステート入力が必要であったり、生成プロセスに対して粗い制御しかできなかったりする。これらの制限は、明瞭なオブジェクトモデリングのスケーラビリティと実用性を妨げます。本研究では,1つの画像から音声オブジェクトを生成する手法を提案する。任意の視点から静止状態にある物体を観察し、入力画像と視覚的に整合した明瞭な物体を生成する。物体の単一ビューによって生じる部分的な形状や動きのあいまいさを捉えるために,幾何学や運動学の観点から物体のもっともらしい変動を学習する拡散モデルを設計する。複数の領域の属性を持つ構造化データを生成する複雑さに対処するため、我々は高次構造から幾何的細部まで、粗い方法で音声化されたオブジェクトを生成するパイプラインを設計し、そこで部分接続グラフと部分抽象化をプロキシとして使用する。実験の結果,提案手法は,生成したオブジェクトの現実性,入力画像の類似性,再現性などの観点から,音声によるオブジェクト生成における最先端の手法よりも優れていた。

関連論文リスト

ArtLLM: Generating Articulated Assets via 3D LLM [19.814132638278547]
ArtLLMは、完全な3Dメッシュから直接高品質な調音資産を生成するための新しいフレームワークである。コアとなるのは,大規模な調音データセットに基づいてトレーニングされた,3Dマルチモーダルな大規模言語モデルだ。実験の結果,ArtLLMは部品配置精度と接合予測の両方で最先端の手法を著しく上回ることがわかった。
論文参考訳（メタデータ） (2026-03-01T15:07:46Z)
Multi-Part Object Representations via Graph Structures and Co-Part Discovery [24.418060973308908]
本稿では,部分の明示的なグラフ表現を活用する新しい手法を提案する。シミュレーション,現実的,実世界の画像による実験結果は,最先端の手法と比較して,発見対象の品質が著しく向上したことを示している。また、検出したオブジェクト中心表現により、下流タスクにおける重要なオブジェクト特性をより正確に予測できることを示す。
論文参考訳（メタデータ） (2025-12-20T03:38:41Z)
PoseGAM: Robust Unseen Object Pose Estimation via Geometry-Aware Multi-View Reasoning [49.66437612420291]
PoseGAMは、クエリ画像と複数のテンプレート画像からオブジェクトのポーズを直接予測する幾何学的なマルチビューフレームワークである。多様な環境条件下で190k以上のオブジェクトを含む大規模合成データセットを構築した。
論文参考訳（メタデータ） (2025-12-11T17:29:25Z)
Object-X: Learning to Reconstruct Multi-Modal 3D Object Representations [112.29763628638112]
Object-Xは多目的なマルチモーダル3D表現フレームワークである。リッチなオブジェクトの埋め込みをエンコードして、幾何学的および視覚的再構成に復号することができる。シーンアライメント、シングルイメージの3Dオブジェクト再構成、ローカライゼーションなど、さまざまなダウンストリームタスクをサポートする。
論文参考訳（メタデータ） (2025-06-05T09:14:42Z)
EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild [79.71523320368388]
本研究の目的は,手動物体のインタラクションを単一視点画像から再構築することである。まず、手ポーズとオブジェクト形状を推定する新しいパイプラインを設計する。最初の再構築では、事前に誘導された最適化方式を採用する。
論文参考訳（メタデータ） (2024-11-21T16:33:35Z)
Resolving Multi-Condition Confusion for Finetuning-Free Personalized Image Generation [10.416673784744281]
本稿では,複数の参照画像特徴を対応オブジェクトにマージする重み付きマージ手法を提案する。提案手法は,マルチオブジェクト・パーソナライズされた画像生成のためのConcept101データセットとDreamBoothデータセットの最先端技術よりも優れた性能を実現する。
論文参考訳（メタデータ） (2024-09-26T15:04:13Z)
NARF24: Estimating Articulated Object Structure for Implicit Rendering [8.044069980286812]
本稿では,少数のシーンに共通するニューラルラジアンス場(NeRF)の表現を学習する手法を提案する。この表現は、暗黙の空間部分ローカライゼーションを生成するために、部分ベースのイメージセグメンテーションと組み合わせられる。
論文参考訳（メタデータ） (2024-09-15T19:06:46Z)
CAGE: Controllable Articulation GEneration [14.002289666443529]
分割拡散法を用いて, 部品形状, 接続性, 動きの相互作用を利用する。本手法では,オブジェクトカテゴリラベルと部分接続グラフを入力として,オブジェクトの形状と運動パラメータを生成する。実験の結果,本手法は音声オブジェクト生成における最先端の手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-15T07:04:27Z)
Variable Radiance Field for Real-Life Category-Specifc Reconstruction from Single Image [27.290232027686237]
本稿では,カメラパラメータが未知の単一画像からカテゴリ固有のオブジェクトを再構成できる新しいフレームワークを提案する。マルチスケールグローバル特徴抽出器を用いてオブジェクトの形状と外観をパラメータ化する。また,特徴抽出器の改良のために,コントラスト学習に基づく事前学習戦略を提案する。
論文参考訳（メタデータ） (2023-06-08T12:12:02Z)
Localizing Object-level Shape Variations with Text-to-Image Diffusion Models [60.422435066544814]
本稿では,特定の物体の形状の変化を表現した画像の集合を生成する手法を提案する。オブジェクトのバリエーションを生成する際の特に課題は、オブジェクトの形状に適用される操作を正確にローカライズすることである。画像空間の操作をローカライズするために,自己注意層と交差注意層を併用する2つの手法を提案する。
論文参考訳（メタデータ） (2023-03-20T17:45:08Z)
MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文参考訳（メタデータ） (2022-12-13T19:30:03Z)
ObjectStitch: Generative Object Compositing [43.206123360578665]
本研究では,条件付き拡散モデルを用いたオブジェクト合成のための自己教師型フレームワークを提案する。我々のフレームワークは、手動ラベリングを必要とせず、生成したオブジェクトの視点、幾何学、色、影を変換することができる。本手法は, 実世界の様々な画像に対するユーザ研究において, 合成結果画像の写実性と忠実性の両方において, 関連ベースラインよりも優れていた。
論文参考訳（メタデータ） (2022-12-02T02:15:13Z)
Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文参考訳（メタデータ） (2022-03-18T21:13:56Z)
Continuous Surface Embeddings [76.86259029442624]
我々は、変形可能な対象カテゴリーにおける密接な対応を学習し、表現するタスクに焦点をあてる。本稿では,高密度対応の新たな学習可能な画像ベース表現を提案する。提案手法は,人間の身近なポーズ推定のための最先端手法と同等以上の性能を示すことを示す。
論文参考訳（メタデータ） (2020-11-24T22:52:15Z)
Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文参考訳（メタデータ） (2020-03-16T21:40:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。