論文の概要: Discovering and using Spelke segments
- arxiv url: http://arxiv.org/abs/2507.16038v1
- Date: Mon, 21 Jul 2025 20:11:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.873366
- Title: Discovering and using Spelke segments
- Title(参考訳): Spelkeセグメントの発見と利用
- Authors: Rahul Venkatesh, Klemen Kotar, Lilian Naing Chen, Seungwoo Kim, Luca Thomas Wheeler, Jared Watrous, Ashley Xu, Gia Ancone, Wanhee Lee, Honglin Chen, Daniel Bear, Stefan Stojanov, Daniel Yamins,
- Abstract要約: 発達心理学は、人間がスペルケの物体という観点から世界を認識することを示唆している。
Spelkeオブジェクトはカテゴリ非依存の因果運動関係で動作する。
SpelkeNetは、将来の動きの分布を予測するために訓練された視覚世界モデルのクラスである。
- 参考スコア(独自算出の注目度): 10.571162243374784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Segments in computer vision are often defined by semantic considerations and are highly dependent on category-specific conventions. In contrast, developmental psychology suggests that humans perceive the world in terms of Spelke objects--groupings of physical things that reliably move together when acted on by physical forces. Spelke objects thus operate on category-agnostic causal motion relationships which potentially better support tasks like manipulation and planning. In this paper, we first benchmark the Spelke object concept, introducing the SpelkeBench dataset that contains a wide variety of well-defined Spelke segments in natural images. Next, to extract Spelke segments from images algorithmically, we build SpelkeNet, a class of visual world models trained to predict distributions over future motions. SpelkeNet supports estimation of two key concepts for Spelke object discovery: (1) the motion affordance map, identifying regions likely to move under a poke, and (2) the expected-displacement map, capturing how the rest of the scene will move. These concepts are used for "statistical counterfactual probing", where diverse "virtual pokes" are applied on regions of high motion-affordance, and the resultant expected displacement maps are used define Spelke segments as statistical aggregates of correlated motion statistics. We find that SpelkeNet outperforms supervised baselines like SegmentAnything (SAM) on SpelkeBench. Finally, we show that the Spelke concept is practically useful for downstream applications, yielding superior performance on the 3DEditBench benchmark for physical object manipulation when used in a variety of off-the-shelf object manipulation models.
- Abstract(参考訳): コンピュータビジョンにおけるセグメントはしばしば意味論的考察によって定義され、カテゴリー固有の慣習に強く依存する。
対照的に、発達心理学は、人間がスペルケの物体という観点から世界を認識することを示唆している。
これにより、Spelkeオブジェクトはカテゴリに依存しない因果関係で動作し、操作や計画といったタスクをより良くサポートする可能性がある。
本稿では,Spelkeオブジェクトの概念をベンチマークし,SpelkeBenchデータセットを導入した。
次に、画像からSpelkeセグメントをアルゴリズムで抽出するために、将来の動きの分布を予測するために訓練された視覚世界モデルのクラスであるSpelkeNetを構築した。
SpelkeNetは,Spelkeオブジェクト発見のための2つの重要な概念を推定する。(1)モーション・アベイランス・マップ,(2)ポケの下を移動しそうな領域の特定,(2)期待された変位・マップ,2)シーンの残りの動きをキャプチャする。
これらの概念は、多種多様な「仮想ポーク」を高い動き精度の領域に適用する「統計的反事実探索」に使われ、結果として期待される変位マップは、スペルケセグメントを相関運動統計の統計集約として定義する。
SpelkeNetは、SpelkeBench上のSegmentAnything(SAM)のような教師付きベースラインよりも優れています。
最後に,Spelkeの概念は下流アプリケーションに実用的に有用であることを示し,様々な既製のオブジェクト操作モデルで使用した場合に,物理オブジェクト操作のための3DEditBenchベンチマークにおいて優れた性能が得られることを示した。
関連論文リスト
- SliceOcc: Indoor 3D Semantic Occupancy Prediction with Vertical Slice Representation [50.420711084672966]
室内3Dセマンティック占有予測に適したRGBカメラベースモデルであるSliceOccを提案する。
EmbodiedScanデータセットの実験結果は、SliceOccが81の屋内カテゴリで15.45%のmIoUを達成したことを示している。
論文 参考訳(メタデータ) (2025-01-28T03:41:24Z) - Semi-Weakly Supervised Object Kinematic Motion Prediction [56.282759127180306]
3Dオブジェクトが与えられた場合、運動予測は移動部と対応する運動パラメータを識別することを目的としている。
階層的部分分割と移動部パラメータのマップを学習するグラフニューラルネットワークを提案する。
ネットワーク予測は、擬似ラベル付き移動情報を持つ大規模な3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2023-03-31T02:37:36Z) - DisenHCN: Disentangled Hypergraph Convolutional Networks for
Spatiotemporal Activity Prediction [53.76601630407521]
本稿では,既存のソリューションのギャップを埋めるために,DistenHCNと呼ばれるハイパーグラフネットワークモデルを提案する。
特に,ユーザの好みと時間的活動の複雑なマッチングをヘテロジニアスなハイパーグラフにまとめる。
次に、ユーザ表現を異なる側面(位置認識、時間認識、活動認識)に切り離し、構築したハイパーグラフ上に対応するアスペクトの特徴を集約する。
論文 参考訳(メタデータ) (2022-08-14T06:51:54Z) - Category-Independent Articulated Object Tracking with Factor Graphs [14.574389906480867]
アーティキュレートされた物体は、カテゴリー的先行と矛盾する予期せぬ調音機構を持つ。
RGB-D画像のシーケンスから未知物体の調音モデルを予測するためのカテゴリ非依存のフレームワークを提案する。
我々の視覚知覚と因子グラフモジュールは、シミュレーションデータに基づくベースラインよりも優れており、実世界のデータに対する因子グラフの適用性を示している。
論文 参考訳(メタデータ) (2022-05-07T20:59:44Z) - Joint Forecasting of Panoptic Segmentations with Difference Attention [72.03470153917189]
シーン内の全てのオブジェクトを共同で予測する新しいパノプティックセグメンテーション予測モデルについて検討する。
提案したモデルをCityscapesとAIODriveデータセット上で評価する。
論文 参考訳(メタデータ) (2022-04-14T17:59:32Z) - Probabilistic Tracking with Deep Factors [8.030212474745879]
因子グラフに基づく確率的追跡フレームワークにおける特徴量に対する生成密度と組み合わせたディープ・フィーチャー・エンコーディングの使い方を示す。
本稿では,学習した特徴エンコーダと生成密度を組み合わせる可能性モデルを提案する。
論文 参考訳(メタデータ) (2021-12-02T21:31:51Z) - Where2Act: From Pixels to Actions for Articulated 3D Objects [54.19638599501286]
可動部を有する関節物体の押出しや引抜き等の基本動作に関連する高度に局所化された動作可能な情報を抽出する。
シミュレーションでネットワークをトレーニングできるオンラインデータサンプリング戦略を備えた学習から対話までのフレームワークを提案します。
私たちの学習モデルは、現実世界のデータにも転送します。
論文 参考訳(メタデータ) (2021-01-07T18:56:38Z) - Spatiotemporal Relationship Reasoning for Pedestrian Intent Prediction [57.56466850377598]
視覚データに対する推論は、ロボティクスとビジョンベースのアプリケーションにとって望ましい能力である。
本稿では,歩行者の意図を推論するため,現場の異なる物体間の関係を明らかにするためのグラフ上でのフレームワークを提案する。
歩行者の意図は、通りを横切る、あるいは横断しない将来の行動として定義され、自動運転車にとって非常に重要な情報である。
論文 参考訳(メタデータ) (2020-02-20T18:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。