論文の概要: GenMatter: Perceiving Physical Objects with Generative Matter Models
- arxiv url: http://arxiv.org/abs/2604.22160v1
- Date: Fri, 24 Apr 2026 02:18:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.309403
- Title: GenMatter: Perceiving Physical Objects with Generative Matter Models
- Title(参考訳): GenMatter: 生成物モデルによる物理的オブジェクトの認識
- Authors: Eric Li, Arijit Dasgupta, Yoni Friedman, Mathieu Huot, Vikash Mansinghka, Thomas O'Connell, William T. Freeman, Joshua B. Tenenbaum,
- Abstract要約: 人間は、独立して移動可能な物質塊を構成する移動体をしっかりと分断する。
既存のコンピュータビジョンシステムは、様々な設定で機能する統一されたアプローチを欠いている。
階層的に低レベルの運動キューと高レベルの外観特徴を粒子にグループ化する生成モデルを提案する。
- 参考スコア(独自算出の注目度): 50.121713214509604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human visual perception offers valuable insights for understanding computational principles of motion-based scene interpretation. Humans robustly detect and segment moving entities that constitute independently moveable chunks of matter, whether observing sparse moving dots, textured surfaces, or naturalistic scenes. In contrast, existing computer vision systems lack a unified approach that works across these diverse settings. Inspired by principles of human perception, we propose a generative model that hierarchically groups low-level motion cues and high-level appearance features into particles (small Gaussians representing local matter), and groups particles into clusters capturing coherently and independently moveable physical entities. We develop a hardware-accelerated inference algorithm based on parallelized block Gibbs sampling to recover stable particle motion and groupings. Our model operates on different kinds of inputs (random dots, stylized textures, or naturalistic RGB video), enabling it to work across settings where biological vision succeeds but existing computer vision approaches do not. We validate this unified framework across three domains: on 2D random dot kinematograms, our approach captures human object perception including graded uncertainty across ambiguous conditions; on a Gestalt-inspired dataset of camouflaged rotating objects, our approach recovers correct 3D structure from motion and thereby accurate 2D object segmentation; and on naturalistic RGB videos, our model tracks the moving 3D matter that makes up deforming objects, enabling robust object-level scene understanding. This work thus establishes a general framework for motion-based perception grounded in principles of human vision.
- Abstract(参考訳): 人間の視覚知覚は、動きに基づくシーン解釈の計算原理を理解するための貴重な洞察を提供する。
人間は、まばらな移動点、テクスチャ化された表面、または自然主義的なシーンを観察するにも拘わらず、独立して移動可能な物質の塊を構成する移動体をしっかりと検出し、分断する。
対照的に、既存のコンピュータビジョンシステムは、これらの多様な設定で機能する統一されたアプローチを欠いている。
人間の知覚の原理に触発されて、階層的に低レベルの運動キューと高レベルの外観特徴を粒子(局所的な物質を表す小さなガウス)にグループ化し、連続的に独立に移動可能な物理的実体を捕獲するクラスターにグループ化する生成モデルを提案する。
我々は, 並列化ブロックギブスサンプリングに基づくハードウェア高速化推論アルゴリズムを開発し, 安定な粒子運動とグルーピングを復元する。
我々のモデルは、異なる種類の入力(ランダムドット、スタイル化されたテクスチャ、または自然主義的なRGBビデオ)で動作し、生物学的ビジョンが成功するが、既存のコンピュータビジョンアプローチでは成功しないような設定で動作することができる。
2Dランダム・ドット・キネマトグラムでは、不明瞭な条件にまたがる段階的不確実性を含む人間の物体の知覚、カモフラージュされた回転物体のゲシュタルトにインスパイアされたデータセットでは、動きから正しい3D構造を復元し、それによって正確な2Dオブジェクトのセグメンテーション、そして自然主義的なRGBビデオでは、変形物体を構成する移動3D物質を追跡し、堅牢なオブジェクトレベルのシーン理解を可能にする。
この研究は、人間の視覚の原理に根ざした動きに基づく知覚の一般的な枠組みを確立する。
関連論文リスト
- Articulated 3D Scene Graphs for Open-World Mobile Manipulation [55.97942733699124]
本報告では, セマンティックな3次元シーングラフを構築するためのフレームワークであるMoMa-SGについて述べる。
新たな統合的ツイスト推定法を用いて調音モデルを推定する。
また,Arti4D-Semanticデータセットについても紹介する。
論文 参考訳(メタデータ) (2026-02-18T10:40:35Z) - PhysHMR: Learning Humanoid Control Policies from Vision for Physically Plausible Human Motion Reconstruction [52.44375492811009]
物理学に基づくシミュレーターにおいて,ヒューマノイド制御のための視覚行動ポリシーを学習する統合フレームワークであるPhysHMRを提案する。
我々のアプローチの重要な要素はピクセル・アズ・レイ戦略であり、2次元のキーポイントを3次元空間に上げ、それらを大域空間に変換する。
PhysHMRは多種多様なシナリオにまたがって高忠実で物理的に妥当な動きを生じさせ、視覚的精度と身体的リアリズムの両方において以前のアプローチより優れている。
論文 参考訳(メタデータ) (2025-10-02T21:01:11Z) - TRACE: Learning 3D Gaussian Physical Dynamics from Multi-view Videos [7.616167860385134]
複雑な動的3次元シーンの運動物理をモデル化する新しいフレームワークTRACEを提案する。
各3次元点を空間の大きさと向きの剛性粒子として定式化することにより、各粒子の変換回転力学系を直接学習する。
論文 参考訳(メタデータ) (2025-08-13T13:43:01Z) - Particle-Grid Neural Dynamics for Learning Deformable Object Models from RGB-D Videos [28.473117601626956]
我々は,物体粒子と空間格子をハイブリッド表現で結合したニューラル・ダイナミクス・フレームワークを開発した。
我々は,ロボットと物体の相互作用の疎視的RGB-D記録から,多様な物体のダイナミックスを学習できることを実証した。
提案手法は,特にカメラビューに制限のあるシナリオにおいて,最先端の学習ベースシミュレータや物理ベースのシミュレータよりも優れている。
論文 参考訳(メタデータ) (2025-06-18T17:59:38Z) - Object Concepts Emerge from Motion [24.73461163778215]
教師なしの方法でオブジェクト中心の視覚表現を学習するための生物学的にインスパイアされたフレームワークを提案する。
我々の重要な洞察は、運動境界がオブジェクトレベルのグルーピングの強いシグナルとなることである。
我々のフレームワークは完全にラベルフリーで、カメラキャリブレーションに頼らず、大規模な非構造化ビデオデータにスケーラブルである。
論文 参考訳(メタデータ) (2025-05-27T18:09:02Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - Seeing Objects in a Cluttered World: Computational Objectness from
Motion in Video [0.0]
物体が重なり合う物体と物理的に異なるものとして、世界の視覚的に不連続な表面を認識することは、視覚的知覚の基礎となる。
対象モデルを持たない現象学から客観性を推定するための,単純だが新しい手法を提案する。
ぼやけやカメラの震えがあっても、個々の被写体をぼやけたシーンでしっかりと認識できることを示す。
論文 参考訳(メタデータ) (2024-02-02T03:57:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。