論文の概要: Towards aligned body representations in vision models
- arxiv url: http://arxiv.org/abs/2512.00365v1
- Date: Sat, 29 Nov 2025 07:25:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.196243
- Title: Towards aligned body representations in vision models
- Title(参考訳): 視覚モデルにおける身体表現の整列化に向けて
- Authors: Andrey Gizdov, Andrea Procopio, Yichen Li, Daniel Harari, Tomer Ullman,
- Abstract要約: セグメンテーションのために訓練された視覚モデルが、同等の表現を発達させるかどうかを検証する。
より小さなモデルは自然に人間のように粗いボディ表現を形成するのに対し、大きなモデルは細かな細かなエンコーディングをする傾向にある。
- 参考スコア(独自算出の注目度): 7.548979981481746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human physical reasoning relies on internal "body" representations - coarse, volumetric approximations that capture an object's extent and support intuitive predictions about motion and physics. While psychophysical evidence suggests humans use such coarse representations, their internal structure remains largely unknown. Here we test whether vision models trained for segmentation develop comparable representations. We adapt a psychophysical experiment conducted with 50 human participants to a semantic segmentation task and test a family of seven segmentation networks, varying in size. We find that smaller models naturally form human-like coarse body representations, whereas larger models tend toward overly detailed, fine-grain encodings. Our results demonstrate that coarse representations can emerge under limited computational resources, and that machine representations can provide a scalable path toward understanding the structure of physical reasoning in the brain.
- Abstract(参考訳): 人間の身体的推論は内部の「身体」表現に依存しており、粗い、容積近似は物体の範囲を捉え、動きや物理学に関する直感的な予測をサポートする。
心理学的な証拠は、人間がそのような粗い表現を使うことを示しているが、その内部構造はほとんど不明である。
ここでは、セグメンテーションのために訓練された視覚モデルが、同等の表現を発達させるかどうかをテストする。
我々は,50人の被験者による心理物理学的な実験を意味的セグメンテーションタスクに適応させ,7つのセグメンテーションネットワークのファミリーをテストする。
より小さなモデルは自然に人間のように粗いボディ表現を形成するのに対し、大きなモデルは細かな細かなエンコーディングをする傾向にある。
本研究は,機械表現が脳内の物理的推論の構造を理解するためのスケーラブルな経路を提供することができることを示す。
関連論文リスト
- Revealing emergent human-like conceptual representations from language prediction [90.73285317321312]
大規模言語モデル(LLMs)は、人間らしい振る舞いを示すテキストの次のトーケン予測によってのみ訓練される。
これらのモデルでは、概念は人間のものと似ていますか?
LLMは、他の概念に関する文脈的手がかりに関連して、言語記述から柔軟に概念を導出できることがわかった。
論文 参考訳(メタデータ) (2025-01-21T23:54:17Z) - Dual Thinking and Logical Processing -- Are Multi-modal Large Language Models Closing the Gap with Human Vision ? [5.076961098583674]
我々は、人間の視覚における二重思考の枠組みの証拠を提供するために、新しい敵対的データセットを導入する。
私たちの精神物理学的な研究は、急速に続く複数の推論の存在を示しています。
エラーの解析は、視覚処理の早期停止は、関連する情報が欠落する可能性があることを示している。
論文 参考訳(メタデータ) (2024-06-11T05:50:34Z) - Intrinsic Physical Concepts Discovery with Object-Centric Predictive
Models [86.25460882547581]
PHYsical Concepts Inference NEtwork (PHYCINE) は、異なる抽象レベルの物理概念を監督なしで推論するシステムである。
物理概念変数を含むオブジェクト表現は因果推論タスクの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-03-03T11:52:21Z) - 3D Shape Perception Integrates Intuitive Physics and
Analysis-by-Synthesis [39.933479524063976]
典型例と非典型例の両方で知覚を説明する3次元形状知覚フレームワークを提案する。
以上の結果から,ボトムアップ型ディープニューラルネットワークモデルでは,人間の形状知覚が十分に考慮されていないことが示唆された。
論文 参考訳(メタデータ) (2023-01-09T23:11:41Z) - Human alignment of neural network representations [28.32452075196472]
ニューラルネットワークで学習した表現と行動応答から推定される人間の心的表現のアライメントに影響を与える要因について検討する。
モデルスケールとアーキテクチャは基本的に人間の行動応答に影響を与えないことがわかった。
食物や動物などの人間の概念はニューラルネットワークによってよく表現されているのに対し、ロイヤルやスポーツ関連の物体はそうではない。
論文 参考訳(メタデータ) (2022-11-02T15:23:16Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - Physion: Evaluating Physical Prediction from Vision in Humans and
Machines [46.19008633309041]
我々は、この能力を正確に測定する視覚的および身体的予測ベンチマークを示す。
我々は、様々な物理予測を行う能力について、アルゴリズムの配列を比較した。
物理的な状態にアクセス可能なグラフニューラルネットワークは、人間の振る舞いを最もよく捉えている。
論文 参考訳(メタデータ) (2021-06-15T16:13:39Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。