Fugu-MT 論文翻訳(概要): 4D Panoptic Scene Graph Generation

論文の概要: 4D Panoptic Scene Graph Generation

arxiv url: http://arxiv.org/abs/2405.10305v1
Date: Thu, 16 May 2024 17:56:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-17 13:23:28.322124
Title: 4D Panoptic Scene Graph Generation
Title（参考訳）: 4次元パノプティカルシーングラフ生成
Authors: Jingkang Yang, Jun Cen, Wenxuan Peng, Shuai Liu, Fangzhou Hong, Xiangtai Li, Kaiyang Zhou, Qifeng Chen, Ziwei Liu,
Abstract要約: ダイナミックな4次元世界において知覚される生の視覚データをブリッジし,高レベルの視覚的理解を実現する新しい表現である4D Panoptic Scene Graph (PSG-4D)を紹介する。具体的には、PSG-4Dは、リッチな4D知覚データをノードに抽象化し、正確な位置とステータス情報を持つエンティティとエッジを表現し、時間的関係をキャプチャする。そこで我々は,PSG4DFormerを提案する。PSG4DFormerはトランスフォーマーベースのモデルで,空間分割マスクを予測し,時間軸に沿ってマスクをトラックし,対応するシーングラフを生成する。
参考スコア（独自算出の注目度）: 102.22082008976228
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We are living in a three-dimensional space while moving forward through a fourth dimension: time. To allow artificial intelligence to develop a comprehensive understanding of such a 4D environment, we introduce 4D Panoptic Scene Graph (PSG-4D), a new representation that bridges the raw visual data perceived in a dynamic 4D world and high-level visual understanding. Specifically, PSG-4D abstracts rich 4D sensory data into nodes, which represent entities with precise location and status information, and edges, which capture the temporal relations. To facilitate research in this new area, we build a richly annotated PSG-4D dataset consisting of 3K RGB-D videos with a total of 1M frames, each of which is labeled with 4D panoptic segmentation masks as well as fine-grained, dynamic scene graphs. To solve PSG-4D, we propose PSG4DFormer, a Transformer-based model that can predict panoptic segmentation masks, track masks along the time axis, and generate the corresponding scene graphs via a relation component. Extensive experiments on the new dataset show that our method can serve as a strong baseline for future research on PSG-4D. In the end, we provide a real-world application example to demonstrate how we can achieve dynamic scene understanding by integrating a large language model into our PSG-4D system.
Abstract（参考訳）: 私たちは、第4次元、すなわち時間を通して前進しながら、三次元空間に住んでいます。人工知能がこのような4D環境を包括的に理解できるようにするために,動的4D世界において知覚される生の視覚データを橋渡しし,高レベルの視覚的理解を行う新しい表現である4D Panoptic Scene Graph (PSG-4D)を導入する。具体的には、PSG-4Dは、リッチな4D知覚データをノードに抽象化し、正確な位置とステータス情報を持つエンティティとエッジを表現し、時間的関係をキャプチャする。この領域の研究を容易にするために,3K RGB-Dビデオと合計1Mフレームからなる豊富な注釈付きPSG-4Dデータセットを構築し,それぞれに4Dパノプティカルセグメンテーションマスクと細粒度でダイナミックなシーングラフをラベル付けした。 PSG-4Dを解決するために,PSG4DFormerを提案する。PSG4DFormerはトランスフォーマーをベースとしたモデルで,空間分割マスクを予測し,時間軸に沿ってマスクをトラックし,対応するシーングラフを関係成分を介して生成する。新しいデータセットに対する大規模な実験により,PSG-4Dの今後の研究において,本手法が強力なベースラインとなる可能性が示唆された。最後に,PSG-4Dシステムに大規模言語モデルを統合することにより,動的シーン理解を実現するための実世界のアプリケーション例を示す。

関連論文リスト

Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文参考訳（メタデータ） (2025-03-26T17:59:44Z)
Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene [122.42861221739123]
本稿では,リッチな2次元視覚シーンアノテーションを活用して4次元シーン学習を促進する4D-PSG生成のための新しいフレームワークについて検討する。本研究では,2次元SGアノテーションから4次元シーンへ空間的時間的特徴を効果的に伝達する2次元から4次元の視覚的シーン伝達学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-19T09:16:08Z)
CoDa-4DGS: Dynamic Gaussian Splatting with Context and Deformation Awareness for Autonomous Driving [12.006435326659526]
ダイナミックなシーンレンダリングを改善するために,新しい4次元ガウススプラッティング(4DGS)手法を提案する。具体的には,2次元セマンティックセグメンテーション基盤モデルを用いて,ガウスの4次元セマンティック特徴を自己監督する。意味的変形特徴と時間的変形特徴の両方を集約して符号化することにより、各ガウスは潜在的な変形補償のための手がかりを備える。
論文参考訳（メタデータ） (2025-03-09T19:58:51Z)
4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [116.2042238179433]
本稿では,動的シーンを非拘束な4次元ボリューム学習問題とみなす。本研究では,4次元ガウス原始体の集合を対象とした動的シーンを明示的な幾何学的特徴と外観的特徴で表現する。このアプローチは、下層のフォトリアリスティック時間体積を適合させることで、空間と時間の関連情報をキャプチャすることができる。特に、我々の4DGSモデルは、複雑なダイナミックシーンのための、高解像度で斬新なビューのリアルタイムレンダリングをサポートする最初のソリューションです。
論文参考訳（メタデータ） (2024-12-30T05:30:26Z)
DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion [22.11178016375823]
DimensionXは、ビデオ拡散を伴う単一の画像から3Dと4Dのシーンを生成するように設計されたフレームワークである。提案手法は,3次元シーンの空間構造と4次元シーンの時間的進化の両方が,映像フレームのシーケンスを通して効果的に表現できるという知見から始まった。
論文参考訳（メタデータ） (2024-11-07T18:07:31Z)
4-LEGS: 4D Language Embedded Gaussian Splatting [12.699978393733309]
3次元ガウシアンティングに基づく4次元表現に時間的特徴を持ち上げる方法を示す。これにより、ユーザはテキストプロンプトからビデオ内のイベントを時間的にローカライズすることができる。我々は,人や動物が様々な行動を行う様子を公開3Dビデオデータセットで実演する。
論文参考訳（メタデータ） (2024-10-14T17:00:53Z)
Segment Any 4D Gaussians [69.53172192552508]
我々は,4次元ガウスアン(SA4D)をベースとした4次元デジタル世界において,任意の4次元ガウスアン(SA4D)をセグメンテーションすることを提案する。 SA4Dは4Dガウスで数秒以内の精度で高品質なセグメンテーションを実現し、高品質なマスクを取り除き、色を変え、構成し、レンダリングする能力を示している。
論文参考訳（メタデータ） (2024-07-05T13:44:15Z)
Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文参考訳（メタデータ） (2024-03-25T17:55:52Z)
4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文参考訳（メタデータ） (2023-12-28T18:53:39Z)
DreamGaussian4D: Generative 4D Gaussian Splatting [56.49043443452339]
DG4D(DreamGaussian 4D:DreamGaussian 4D)はGaussian Splatting(GS)をベースとした効率的な4D生成フレームワークである。我々の重要な洞察は、空間変換の明示的なモデリングと静的GSを組み合わせることで、4次元生成の効率的かつ強力な表現ができるということである。ビデオ生成手法は、高画質の4D生成を向上し、価値ある時空間前兆を提供する可能性がある。
論文参考訳（メタデータ） (2023-12-28T17:16:44Z)
Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。 4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文参考訳（メタデータ） (2023-12-21T11:41:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。