論文の概要: Neural USD: An object-centric framework for iterative editing and control
- arxiv url: http://arxiv.org/abs/2510.23956v1
- Date: Tue, 28 Oct 2025 00:19:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.692985
- Title: Neural USD: An object-centric framework for iterative editing and control
- Title(参考訳): Neural USD: 反復的な編集と制御のためのオブジェクト指向フレームワーク
- Authors: Alejandro Escontrela, Shrinu Kushagra, Sjoerd van Steenkiste, Yulia Rubanova, Aleksander Holynski, Kelsey Allen, Kevin Murphy, Thomas Kipf,
- Abstract要約: ニューラル・ユニバーサル・シーン・ディスクリプタ(Neural Universal Scene Descriptor)またはニューラル・USD(Neural USD)は、構造化された階層的なシーンやオブジェクトを表す。
これは多様な信号に対応し、モデル固有の制約を最小限にし、外観、幾何学、ポーズに対するオブジェクトごとの制御を可能にする。
我々は、Neural USDが反復的かつインクリメンタルな編集を可能にしていることを実証し、フレームワークの設計上の考慮事項を評価した。
- 参考スコア(独自算出の注目度): 91.12583577789235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Amazing progress has been made in controllable generative modeling, especially over the last few years. However, some challenges remain. One of them is precise and iterative object editing. In many of the current methods, trying to edit the generated image (for example, changing the color of a particular object in the scene or changing the background while keeping other elements unchanged) by changing the conditioning signals often leads to unintended global changes in the scene. In this work, we take the first steps to address the above challenges. Taking inspiration from the Universal Scene Descriptor (USD) standard developed in the computer graphics community, we introduce the "Neural Universal Scene Descriptor" or Neural USD. In this framework, we represent scenes and objects in a structured, hierarchical manner. This accommodates diverse signals, minimizes model-specific constraints, and enables per-object control over appearance, geometry, and pose. We further apply a fine-tuning approach which ensures that the above control signals are disentangled from one another. We evaluate several design considerations for our framework, demonstrating how Neural USD enables iterative and incremental workflows. More information at: https://escontrela.me/neural_usd .
- Abstract(参考訳): 制御可能な生成モデリング、特にここ数年で驚くべき進歩を遂げています。
しかし、いくつかの課題が残っている。
そのうちの1つは正確で反復的なオブジェクト編集である。
現在の多くの方法では、コンディショニング信号を変更して生成した画像(例えば、シーン内の特定のオブジェクトの色を変えたり、他の要素を変更せずに背景を変更したり)を編集しようとすると、シーンの意図しないグローバルな変化につながることが多い。
この作業では、上記の課題に対処する第一歩を踏み出します。
コンピュータグラフィックスコミュニティで開発されたUniversal Scene Descriptor(USD)標準からインスピレーションを得て、ニューラル・ユニバーサル・シーン・ディスクリプタ(Neural Universal Scene Descriptor)またはNeural USDを紹介する。
このフレームワークでは、シーンとオブジェクトを構造化された階層的な方法で表現する。
これは多様な信号に対応し、モデル固有の制約を最小限にし、外観、幾何学、ポーズに対するオブジェクトごとの制御を可能にする。
さらに、上述の制御信号が互いに絡み合っていることを確実にする微調整手法を適用する。
我々は、Neural USDが反復的かつインクリメンタルなワークフローをどのように実現できるかを実証し、フレームワークの設計上の考慮事項を評価した。
詳細は、https://escontrela.me/neural_usd を参照してください。
関連論文リスト
- SPOC: Spatially-Progressing Object State Change Segmentation in Video [52.65373395382122]
本稿では,空間的に進行するオブジェクト状態変化セグメンテーションタスクを紹介する。
目標は、アクション可能なオブジェクトと変換されるオブジェクトのピクセルレベルの領域をセグメント化することです。
本研究は,ロボットエージェントに役立てるために,活動進行の追跡に有用であることを示す。
論文 参考訳(メタデータ) (2025-03-15T01:48:54Z) - ObjectMover: Generative Object Movement with Video Prior [69.75281888309017]
本稿では,難易度の高いシーンでオブジェクトの動きを再現できる生成モデルであるObjectMoverを提案する。
このアプローチにより、我々のモデルは複雑な現実世界のシナリオに適応できることを示す。
本稿では,実世界の映像データを学習してモデル一般化を改善するマルチタスク学習戦略を提案する。
論文 参考訳(メタデータ) (2025-03-11T04:42:59Z) - VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - AnyDoor: Zero-shot Object-level Image Customization [63.44307304097742]
ユーザが指定した場所の新しいシーンにターゲットオブジェクトをテレポートする機能を備えた拡散ベースのイメージジェネレータであるAnyDoorを紹介する。
我々のモデルは1回のみ訓練され、推論段階では多様なオブジェクトとシーンの組み合わせに懸命に一般化される。
論文 参考訳(メタデータ) (2023-07-18T17:59:02Z) - Factored Neural Representation for Scene Understanding [39.66967677639173]
本稿では,モノクラーRGB-Dビデオから直接学習して,オブジェクトレベルのニューラルプレゼンテーションを生成する,ファクタリングされたニューラルシーン表現を提案する。
我々は、合成データと実データの両方に対する一連のニューラルアプローチに対して、表現が効率的で、解釈可能で、編集可能であることを示す。
論文 参考訳(メタデータ) (2023-04-21T13:40:30Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。