Fugu-MT 論文翻訳(概要): GAOT: Generating Articulated Objects Through Text-Guided Diffusion Models

論文の概要: GAOT: Generating Articulated Objects Through Text-Guided Diffusion Models

arxiv url: http://arxiv.org/abs/2512.03566v1
Date: Wed, 03 Dec 2025 08:44:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-04 20:02:55.203118
Title: GAOT: Generating Articulated Objects Through Text-Guided Diffusion Models
Title（参考訳）: GAOT:テキスト誘導拡散モデルによる人工物の生成
Authors: Hao Sun, Lei Fan, Donglin Di, Shaohui Liu,
Abstract要約: GAOTはテキストプロンプトから明瞭なオブジェクトを生成するフレームワークである。ハイパーグラフに基づく学習は、これらの粗い表現を洗練するために使用される。グラフエッジとして表現された明瞭な物体の関節は、対象部分に基づいて生成される。
参考スコア（独自算出の注目度）: 26.691223595006893
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Articulated object generation has seen increasing advancements, yet existing models often lack the ability to be conditioned on text prompts. To address the significant gap between textual descriptions and 3D articulated object representations, we propose GAOT, a three-phase framework that generates articulated objects from text prompts, leveraging diffusion models and hypergraph learning in a three-step process. First, we fine-tune a point cloud generation model to produce a coarse representation of objects from text prompts. Given the inherent connection between articulated objects and graph structures, we design a hypergraph-based learning method to refine these coarse representations, representing object parts as graph vertices. Finally, leveraging a diffusion model, the joints of articulated objects-represented as graph edges-are generated based on the object parts. Extensive qualitative and quantitative experiments on the PartNet-Mobility dataset demonstrate the effectiveness of our approach, achieving superior performance over previous methods.
Abstract（参考訳）: アーティキュレートされたオブジェクト生成は進歩するが、既存のモデルはテキストプロンプトで条件付けできる能力に欠けることが多い。 3段階のプロセスで拡散モデルとハイパーグラフ学習を活用し,テキストプロンプトから音声オブジェクトを生成する3段階フレームワークであるGAOTを提案する。まず、テキストプロンプトからオブジェクトの粗い表現を生成するために、ポイントクラウド生成モデルを微調整する。対象をグラフ頂点として表現し,これらの粗い表現を洗練するためのハイパーグラフに基づく学習法を設計する。最後に, 拡散モデルを用いて, グラフエッジとして表現された明瞭な物体の接合部を, 対象部分に基づいて生成する。 PartNet-Mobilityデータセットの大規模定性的および定量的実験により,提案手法の有効性が実証され,従来の手法よりも優れた性能が得られた。

関連論文リスト

ArtLLM: Generating Articulated Assets via 3D LLM [19.814132638278547]
ArtLLMは、完全な3Dメッシュから直接高品質な調音資産を生成するための新しいフレームワークである。コアとなるのは,大規模な調音データセットに基づいてトレーニングされた,3Dマルチモーダルな大規模言語モデルだ。実験の結果,ArtLLMは部品配置精度と接合予測の両方で最先端の手法を著しく上回ることがわかった。
論文参考訳（メタデータ） (2026-03-01T15:07:46Z)
IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。 SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。 SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文参考訳（メタデータ） (2025-03-28T20:53:20Z)
Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文参考訳（メタデータ） (2024-10-26T12:00:33Z)
GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。 GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文参考訳（メタデータ） (2023-11-30T18:59:58Z)
CG3D: Compositional Generation for Text-to-3D via Gaussian Splatting [57.14748263512924]
CG3Dは、スケーラブルな3Dアセットを合成的に生成する手法である。ガンマ放射場は、オブジェクトの合成を可能にするためにパラメータ化され、意味的および物理的に一貫したシーンを可能にする能力を持っている。
論文参考訳（メタデータ） (2023-11-29T18:55:38Z)
NAP: Neural 3D Articulation Prior [31.875925637190328]
本研究では,3次元合成対象モデルを合成する最初の3次元深部生成モデルであるNeural 3D Articulation Prior (NAP)を提案する。そこで我々はまず,新しい調音木/グラフパラメタライゼーションを設計し,この表現に対して拡散減衰確率モデルを適用した。分布が互いに影響を及ぼすような幾何構造と運動構造の両方を捉えるために,逆拡散過程を学習するためのグラフアテンション認知ネットワークを設計する。
論文参考訳（メタデータ） (2023-05-25T17:59:35Z)
Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文参考訳（メタデータ） (2021-03-29T14:37:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。