Fugu-MT 論文翻訳(概要): Forest2Seq: Revitalizing Order Prior for Sequential Indoor Scene Synthesis

論文の概要: Forest2Seq: Revitalizing Order Prior for Sequential Indoor Scene Synthesis

arxiv url: http://arxiv.org/abs/2407.05388v1
Date: Sun, 7 Jul 2024 14:32:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 19:57:34.639999
Title: Forest2Seq: Revitalizing Order Prior for Sequential Indoor Scene Synthesis
Title（参考訳）: Forest2Seq: シークエンシャルな屋内シーン合成に先立つリバイバル化
Authors: Qi Sun, Hang Zhou, Wengang Zhou, Li Li, Houqiang Li,
Abstract要約: 本研究では,屋内シーンの合成を順序認識型シーケンシャル学習問題として定式化するフレームワークであるフォレスト2Seqを提案する。クラスタリングに基づくアルゴリズムと幅優先のアルゴリズムを用いることで、フォレスト2セックは意味のある順序付けを導き、トランスフォーマーを使用してリアルな3Dシーンを自動回帰的に生成する。
参考スコア（独自算出の注目度）: 109.50718968215658
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Synthesizing realistic 3D indoor scenes is a challenging task that traditionally relies on manual arrangement and annotation by expert designers. Recent advances in autoregressive models have automated this process, but they often lack semantic understanding of the relationships and hierarchies present in real-world scenes, yielding limited performance. In this paper, we propose Forest2Seq, a framework that formulates indoor scene synthesis as an order-aware sequential learning problem. Forest2Seq organizes the inherently unordered collection of scene objects into structured, ordered hierarchical scene trees and forests. By employing a clustering-based algorithm and a breadth-first traversal, Forest2Seq derives meaningful orderings and utilizes a transformer to generate realistic 3D scenes autoregressively. Experimental results on standard benchmarks demonstrate Forest2Seq's superiority in synthesizing more realistic scenes compared to top-performing baselines, with significant improvements in FID and KL scores. Our additional experiments for downstream tasks and ablation studies also confirm the importance of incorporating order as a prior in 3D scene generation.
Abstract（参考訳）: リアルな3D屋内シーンを合成することは、伝統的に専門家デザイナーによる手作業によるアレンジメントとアノテーションに依存している難しい作業である。近年の自己回帰モデルでは、このプロセスが自動化されているが、現実のシーンに存在する関係や階層のセマンティックな理解が欠如しており、性能は限られている。本稿では,室内シーンの合成を順序対応型シーケンシャル学習問題として定式化するフレームワークであるフォレスト2Seqを提案する。 Forest2Seqは、本質的に順序のないシーンオブジェクトのコレクションを構造化され、順序付けられた階層的なシーンツリーと森林に整理する。クラスタリングに基づくアルゴリズムと幅優先のトラバースを用いて、フォレスト2セックは意味のある順序付けを導き、トランスフォーマーを使用してリアルな3Dシーンを自動回帰的に生成する。標準ベンチマークによる実験結果は、FIDとKLスコアを大幅に改善した上で、トップパフォーマンスのベースラインと比較して、より現実的なシーンを合成する際のフォレスト2Seqの優位性を示している。下流タスクとアブレーション研究のための追加実験は、3次元シーン生成における先行的な順序を組み込むことの重要性を裏付けるものである。

関連論文リスト

ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis [15.68979922374718]
ASHiTAは、ハイレベルなタスクをグラウンド化されたサブタスクに分解することで、3Dシーングラフにグラウンドされたタスク階層を生成するフレームワークである。実験の結果,ASHiTAは環境依存サブタスクに高レベルタスクを分割する際のLCMベースラインよりもはるかに優れた性能を示した。
論文参考訳（メタデータ） (2025-04-09T03:22:52Z)
3D Scene Understanding Through Local Random Access Sequence Modeling [12.689247678229382]
単一画像からの3Dシーン理解は、コンピュータビジョンにおいて重要な問題である。本稿では、LRAS(Local Random Access Sequence)モデリングと呼ばれる自己回帰生成手法を提案する。光学フローを3次元シーン編集の中間表現として利用することにより、LRASが最先端の新規ビュー合成と3次元オブジェクト操作機能を実現することを示す。
論文参考訳（メタデータ） (2025-04-04T18:59:41Z)
Hierarchically-Structured Open-Vocabulary Indoor Scene Synthesis with Pre-trained Large Language Model [14.70850176122733]
本稿では,大規模言語モデル(LLM)を用いて階層的に構造化されたシーン記述を生成し,シーンレイアウトを計算することを提案する。具体的には、オブジェクト間の微粒な相対位置を推測するために階層型ネットワークを訓練する。また,オープン語彙のシーン合成とインタラクティブなシーンデザインの結果を,アプリケーションにおけるアプローチの強みを示すために提示する。
論文参考訳（メタデータ） (2025-02-15T05:04:14Z)
TreeSBA: Tree-Transformer for Self-Supervised Sequential Brick Assembly [51.29305265324916]
入力された多視点画像から連続的な組立動作を予測するために,クラスに依存しないツリー・トランスフォーマフレームワークを提案する。逐次レンガ組立作業の大きな課題は、ステップワイドアクションラベルが実際に入手するのに費用がかかり、面倒であることである。我々は、合成から現実への移行学習を活用することにより、この問題を緩和する。
論文参考訳（メタデータ） (2024-07-22T14:05:27Z)
Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文参考訳（メタデータ） (2024-07-02T09:11:17Z)
Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
混合離散連続拡散モデルアーキテクチャであるMiDiffusionを提案する。シーンレイアウトを2次元のフロアプランとオブジェクトの集合で表現し、それぞれがそのカテゴリ、場所、サイズ、方向で定義する。実験により,MiDiffusionは床条件下での3次元シーン合成において,最先端の自己回帰モデルや拡散モデルよりもかなり優れていることが示された。
論文参考訳（メタデータ） (2024-05-31T17:54:52Z)
DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキスト記述のみで高度に一貫した3Dシーンを作成する方法であるDreamScapeを提案する。本手法では,シーン表現のための3次元ガウスガイドを,意味的プリミティブ(オブジェクト)とその空間変換によって構成する。プログレッシブスケール制御は、局所オブジェクト生成中に調整され、異なるサイズと密度のオブジェクトがシーンに適応することを保証する。
論文参考訳（メタデータ） (2024-04-14T12:13:07Z)
InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with Semantic Graph Prior [27.773451301040424]
InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
論文参考訳（メタデータ） (2024-02-07T10:09:00Z)
CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文参考訳（メタデータ） (2023-05-25T17:39:13Z)
Towards 3D Scene Understanding by Referring Synthetic Models [65.74211112607315]
メソッドは通常、実際のシーンスキャンにおける過剰なアノテーションを緩和する。合成モデルは、合成特徴の実際のシーンカテゴリを、統一された特徴空間にどのように依存するかを考察する。実験の結果,ScanNet S3DISデータセットの平均mAPは46.08%,学習データセットは55.49%であった。
論文参考訳（メタデータ） (2022-03-20T13:06:15Z)
GramGAN: Deep 3D Texture Synthesis From 2D Exemplars [7.553635339893189]
本稿では,2次元画像が与えられた無限の高品質な3次元テクスチャの生成を可能にする,新しいテクスチャ合成フレームワークを提案する。自然テクスチャ合成の最近の進歩に触発されて、学習されたノイズ周波数を非線形に組み合わせてテクスチャを生成するために、ディープニューラルネットワークを訓練する。そこで本研究では,スタイル転送と生成対向ネットワークの両方からアイデアを結合した新たな損失関数を提案する。
論文参考訳（メタデータ） (2020-06-29T15:22:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。