Fugu-MT 論文翻訳(概要): SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting

論文の概要: SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting

arxiv url: http://arxiv.org/abs/2507.23772v1
Date: Thu, 31 Jul 2025 17:56:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-01 17:19:10.216918
Title: SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting
Title（参考訳）: SeqAffordSplat:Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting
Authors: Di Li, Jie Feng, Jiahao Chen, Weisheng Dong, Guanbin Li, Yuhui Zheng, Mingtao Feng, Guangming Shi,
Abstract要約: 本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
参考スコア（独自算出の注目度）: 85.87902260102652
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D affordance reasoning, the task of associating human instructions with the functional regions of 3D objects, is a critical capability for embodied agents. Current methods based on 3D Gaussian Splatting (3DGS) are fundamentally limited to single-object, single-step interactions, a paradigm that falls short of addressing the long-horizon, multi-object tasks required for complex real-world applications. To bridge this gap, we introduce the novel task of Sequential 3D Gaussian Affordance Reasoning and establish SeqAffordSplat, a large-scale benchmark featuring 1800+ scenes to support research on long-horizon affordance understanding in complex 3DGS environments. We then propose SeqSplatNet, an end-to-end framework that directly maps an instruction to a sequence of 3D affordance masks. SeqSplatNet employs a large language model that autoregressively generates text interleaved with special segmentation tokens, guiding a conditional decoder to produce the corresponding 3D mask. To handle complex scene geometry, we introduce a pre-training strategy, Conditional Geometric Reconstruction, where the model learns to reconstruct complete affordance region masks from known geometric observations, thereby building a robust geometric prior. Furthermore, to resolve semantic ambiguities, we design a feature injection mechanism that lifts rich semantic features from 2D Vision Foundation Models (VFM) and fuses them into the 3D decoder at multiple scales. Extensive experiments demonstrate that our method sets a new state-of-the-art on our challenging benchmark, effectively advancing affordance reasoning from single-step interactions to complex, sequential tasks at the scene level.
Abstract（参考訳）: 人間の指示を3Dオブジェクトの機能領域に関連付ける作業である3D割当推論は、エンボディエージェントにとって重要な能力である。 3D Gaussian Splatting(3DGS)に基づく現在の手法は、複雑な現実世界のアプリケーションに必要な長期多目的タスクに対処できない、単一対象の単一ステップの相互作用に基本的に制限されている。このギャップを埋めるために、我々はSequential 3D Gaussian Affordance Reasoningという新しいタスクを導入し、複雑な3DGS環境における長期費用の理解を支援するために1800以上のシーンを特徴とする大規模ベンチマークであるSeqAffordSplatを確立する。次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。 SeqSplatNetは、特別なセグメンテーショントークンでインターリーブされたテキストを自動的に自動生成する大きな言語モデルを採用し、条件付きデコーダを誘導して対応する3Dマスクを生成する。複雑なシーン形状を扱うために,モデルが既知の幾何学的観測から完全空き領域マスクの再構成を学習し,頑健な幾何学的事前構築を行う,事前学習戦略である条件付き幾何学的再構成を導入する。さらに,2次元視覚基礎モデル(VFM)からリッチな意味的特徴を持ち上げる機能注入機構を設計し,それを複数スケールで3次元デコーダに融合させる。大規模な実験により,本手法は,1段階のインタラクションから複雑な逐次的なタスクまで,シーンレベルでの可視性推論を効果的に進める上で,挑戦的なベンチマークに新たな最先端を設定できることが実証された。

関連論文リスト

Unified Semantic Transformer for 3D Scene Understanding [55.415468022487005]
我々は、単一のモデル内に多様な3Dセマンティックタスクを統一する新しいフィードフォワードニューラルネットワークUNITEを紹介する。我々のモデルは、完全なエンドツーエンドで見えないシーンで動作し、完全な3Dセマンティックジオメトリを推測するのにほんの数秒しかかからない。 UNITEはいくつかの異なる意味的タスクにおいて最先端のパフォーマンスを達成し、タスク固有のモデルよりも優れていることを実証する。
論文参考訳（メタデータ） (2025-12-16T12:49:35Z)
Task-Aware 3D Affordance Segmentation via 2D Guidance and Geometric Refinement [12.260126771415019]
タスク対応型3次元シーンアフォーダンスセグメンテーション(TASA)について紹介する。 TASAは2次元のセマンティックキューと3次元の幾何学的推論を粗い方法で併用する新しい幾何学最適化フレームワークである。 3次元幾何情報を完全に活用するために、局所的な3次元幾何と2次元セマンティック先行情報を統合するために、3次元アベイランス改良モジュールを提案する。
論文参考訳（メタデータ） (2025-11-12T13:36:37Z)
IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文参考訳（メタデータ） (2025-10-26T14:57:44Z)
Unlocking 3D Affordance Segmentation with 2D Semantic Knowledge [45.19482892758984]
Affordance segmentationは、3Dオブジェクトを機能的に異なる部分にパースすることを目的としている。我々は,3次元エンコーダを昇降した2次元意味論と整合させ,再現,親和性,多様性を共同で最適化し,意味的に整理された表現を得るための事前学習戦略であるCross-Modal Affinity Transfer (CMAT)を導入する。さらに,マルチモーダルプロンプトとCMAT対応機能を統合し,高精度かつ迅速なセグメンテーションマップを生成するCAST (Cross-modal Affordance Transformer) を設計する。
論文参考訳（メタデータ） (2025-10-09T15:01:26Z)
SGS-3D: High-Fidelity 3D Instance Segmentation via Reliable Semantic Mask Splitting and Growing [20.383892902000976]
高忠実度3Dインスタンスセグメンテーション(SGS-3D)のための分割・成長型セマンティックマスクを提案する。本稿では,3次元幾何学的プリミティブの共起を利用したマスクフィルタリング手法を提案する。幾何学的洗練のために,空間的連続性と高次特徴を両立させて細粒度オブジェクトインスタンスを構築する。
論文参考訳（メタデータ） (2025-09-05T14:37:31Z)
ReferSplat: Referring Segmentation in 3D Gaussian Splatting [60.73702075842278]
3次元ガウス散乱(R3DGS)を参照 Taskは、自然言語の記述に基づいて、ターゲットオブジェクトを3Dガウスシーンにセグメントすることを目的としている。これらの課題に対処するため,自然言語表現を用いて3次元ガウス点を明示的にモデル化するフレームワークReferSplatを提案する。
論文参考訳（メタデータ） (2025-08-11T17:59:30Z)
Interpretable Single-View 3D Gaussian Splatting using Unsupervised Hierarchical Disentangled Representation Learning [46.85417907244265]
本稿では,粗い3Dセマンティクスと微粒な3Dセマンティクスの両方を発見するために,3DisGSと呼ばれる解釈可能な単一ビュー3DGSフレームワークを提案する。本モデルでは,高品質かつ高速な再構成を保ちながら3次元のアンタングル化を実現する。
論文参考訳（メタデータ） (2025-04-05T14:42:13Z)
TSGaussian: Semantic and Depth-Guided Target-Specific Gaussian Splatting from Sparse Views [18.050257821756148]
TSGaussianは、新しいビュー合成タスクにおける幾何学的劣化を避けるために、意味的制約と深さ事前の制約を組み合わせる新しいフレームワークである。提案手法は,バックグラウンドアロケーションを最小化しながら,指定された目標に対する計算資源の優先順位付けを行う。大規模な実験により、TSGaussianは3つの標準データセット上で最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2024-12-13T11:26:38Z)
Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。 FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文参考訳（メタデータ） (2024-11-29T08:52:32Z)
Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。 LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文参考訳（メタデータ） (2024-10-24T17:54:42Z)
AutoInst: Automatic Instance-Based Segmentation of LiDAR 3D Scans [41.17467024268349]
3D環境を理解するには、きめ細かい風景を理解する必要がある。教師なしの方法で3次元シーンのインスタンスセグメンテーションを予測することを提案する。平均精度は13.3%,F1スコアは9.1%向上した。
論文参考訳（メタデータ） (2024-03-24T22:53:16Z)
SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。 ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文参考訳（メタデータ） (2023-12-17T09:05:47Z)
Structural Multiplane Image: Bridging Neural View Synthesis and 3D Reconstruction [39.89856628467095]
平面構造が3次元シーンを簡潔に近似する構造的MPI(S-MPI)を導入する。 S-MPIを適用するという直感と要求にもかかわらず、RGBA層と平面の両方の高忠実度近似のような大きな課題が導入されている。提案手法は,従来のMPIを用いたビュー合成法と平面再構成法より優れていた。
論文参考訳（メタデータ） (2023-03-10T14:18:40Z)
Multi-initialization Optimization Network for Accurate 3D Human Pose and Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文参考訳（メタデータ） (2021-12-24T02:43:58Z)
Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose Estimation [61.98690211671168]
本稿では,マルチレベルアテンション・デコーダ・ネットワーク(MAED)を提案する。 3DPWのトレーニングセットにより、MAEDはPA-MPJPEの6.2、7.2、2.4mmの従来の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2021-09-06T09:06:17Z)
H3D-Net: Few-Shot High-Fidelity 3D Head Reconstruction [27.66008315400462]
表面形状を暗黙的に表現する最近の学習手法は、多視点3次元再構成の問題において顕著な結果を示している。我々はこれらの制限を,数発のフル3次元頭部再構成の特定の問題に対処する。暗黙の表現を用いて,数千個の不完全な生スキャンから3次元頭部形状モデルを学習する。
論文参考訳（メタデータ） (2021-07-26T23:04:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。