Fugu-MT 論文翻訳(概要): DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data

論文の概要: DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data

arxiv url: http://arxiv.org/abs/2505.20460v2
Date: Wed, 28 May 2025 13:22:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 15:04:28.105383
Title: DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data
Title（参考訳）: DIPO:二状態画像制御による多次元データを用いた人工物体生成
Authors: Ruiqi Wu, Xinjie Wang, Liu Liu, Chunle Guo, Jiaxiong Qiu, Chongyi Li, Lichao Huang, Zhizhong Su, Ming-Ming Cheng,
Abstract要約: DIPOは、一対のイメージから調音された3Dオブジェクトを制御可能な生成するためのフレームワークである。本稿では,イメージペア間の関係を捉え,部分配置と関節パラメータを生成するデュアルイメージ拡散モデルを提案する。複雑な3Dオブジェクトの大規模データセットであるPM-Xについて,レンダリング画像,URDFアノテーション,テキスト記述を伴って提案する。
参考スコア（独自算出の注目度）: 67.99373622902827
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present DIPO, a novel framework for the controllable generation of articulated 3D objects from a pair of images: one depicting the object in a resting state and the other in an articulated state. Compared to the single-image approach, our dual-image input imposes only a modest overhead for data collection, but at the same time provides important motion information, which is a reliable guide for predicting kinematic relationships between parts. Specifically, we propose a dual-image diffusion model that captures relationships between the image pair to generate part layouts and joint parameters. In addition, we introduce a Chain-of-Thought (CoT) based graph reasoner that explicitly infers part connectivity relationships. To further improve robustness and generalization on complex articulated objects, we develop a fully automated dataset expansion pipeline, name LEGO-Art, that enriches the diversity and complexity of PartNet-Mobility dataset. We propose PM-X, a large-scale dataset of complex articulated 3D objects, accompanied by rendered images, URDF annotations, and textual descriptions. Extensive experiments demonstrate that DIPO significantly outperforms existing baselines in both the resting state and the articulated state, while the proposed PM-X dataset further enhances generalization to diverse and structurally complex articulated objects. Our code and dataset will be released to the community upon publication.
Abstract（参考訳）: DIPOは,一対の画像から調音オブジェクトを制御可能な形で生成するための新しいフレームワークである。シングルイメージのアプローチと比較して、我々のデュアルイメージ入力はデータ収集にわずかなオーバーヘッドしか課さないが、同時に重要な動作情報を提供しており、これは部品間の運動関係を予測するための信頼性の高いガイドである。具体的には、画像ペア間の関係を捉え、部分配置と関節パラメータを生成するデュアルイメージ拡散モデルを提案する。さらに,結合関係を明示的に推論するChain-of-Thought (CoT)ベースのグラフ推論器を導入する。複雑な調音オブジェクトのロバスト性や一般化をさらに向上するため,PartNet-Mobilityデータセットの多様性と複雑さを向上する,完全自動化されたデータセット拡張パイプラインであるLEGO-Artを開発した。複雑な3Dオブジェクトの大規模データセットであるPM-Xについて,レンダリング画像,URDFアノテーション,テキスト記述を伴って提案する。 PM-Xデータセットは多種多様で構造的に複雑な調音物体への一般化をさらに促進する一方,DIPOは静止状態と調音状態の両方において既存のベースラインを著しく上回ることを示した。私たちのコードとデータセットは、公開後、コミュニティにリリースされます。

関連論文リスト

ArtLLM: Generating Articulated Assets via 3D LLM [19.814132638278547]
ArtLLMは、完全な3Dメッシュから直接高品質な調音資産を生成するための新しいフレームワークである。コアとなるのは,大規模な調音データセットに基づいてトレーニングされた,3Dマルチモーダルな大規模言語モデルだ。実験の結果,ArtLLMは部品配置精度と接合予測の両方で最先端の手法を著しく上回ることがわかった。
論文参考訳（メタデータ） (2026-03-01T15:07:46Z)
Particulate: Feed-Forward 3D Object Articulation [89.78788418174946]
Particulateは、毎日のオブジェクトの1つの静的3Dメッシュが与えられたフィードフォワードアプローチであり、基盤となる関節構造のすべての属性を直接推論する。私たちは、公開データセットから多種多様な3Dアセットの集合に基づいて、ネットワークのエンドツーエンドをトレーニングします。推論中、Particulateはネットワークのフィードフォワード予測を入力メッシュに持ち上げ、完全に調音された3Dモデルを数秒で生成する。
論文参考訳（メタデータ） (2025-12-12T18:59:51Z)
IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
ArtGS: Building Interactable Replicas of Complex Articulated Objects via Gaussian Splatting [66.29782808719301]
コンピュータビジョンにおいて、音声で表現されたオブジェクトを構築することが重要な課題である。既存のメソッドは、しばしば異なるオブジェクト状態間で効果的に情報を統合できない。 3次元ガウスを柔軟かつ効率的な表現として活用する新しいアプローチであるArtGSを紹介する。
論文参考訳（メタデータ） (2025-02-26T10:25:32Z)
HOGSA: Bimanual Hand-Object Interaction Understanding with 3D Gaussian Splatting Based Data Augmentation [29.766317710266765]
本稿では,2次元手動物体間相互作用のための3次元ガウススプラッティングに基づくデータ拡張フレームワークを提案する。メッシュベースの3DGSを用いてオブジェクトとハンドをモデル化し、マルチレゾリューション入力画像によるレンダリングのぼかし問題に対処する。両手オブジェクトに対する片手握りポーズ最適化モジュールを拡張し、両手オブジェクト間相互作用のさまざまなポーズを生成する。
論文参考訳（メタデータ） (2025-01-06T08:48:17Z)
SM$^3$: Self-Supervised Multi-task Modeling with Multi-view 2D Images for Articulated Objects [24.737865259695006]
そこで本研究では, SM$3$と呼ばれる自己教師型相互作用認識手法を提案する。取得した2次元画像から3次元の幾何学とテクスチャを構築することで、SM$3$は可動部と関節パラメータの統合最適化を実現する。 SM$3$は、様々なカテゴリやオブジェクトにわたる既存のベンチマークを上回り、実際のシナリオにおける適応性は、徹底的に検証されている。
論文参考訳（メタデータ） (2024-01-17T11:15:09Z)
SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文参考訳（メタデータ） (2023-07-20T05:46:32Z)
MMRDN: Consistent Representation for Multi-View Manipulation Relationship Detection in Object-Stacked Scenes [62.20046129613934]
我々は,MMRDN(Multi-view MRD Network)と呼ばれる新しい多視点融合フレームワークを提案する。異なるビューからの2Dデータを共通の隠れ空間に投影し、埋め込みをVon-Mises-Fisher分布に適合させる。これら2つのオブジェクトの相対位置を符号化した各オブジェクト対の点雲から、K$最大垂直近傍点(KMVN)の集合を選択する。
論文参考訳（メタデータ） (2023-04-25T05:55:29Z)
CoADNet: Collaborative Aggregation-and-Distribution Networks for Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文参考訳（メタデータ） (2020-11-10T04:28:11Z)
Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文参考訳（メタデータ） (2020-03-16T21:40:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。