論文の概要: Human-Like Coarse Object Representations in Vision Models
- arxiv url: http://arxiv.org/abs/2602.12486v1
- Date: Thu, 12 Feb 2026 23:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.793077
- Title: Human-Like Coarse Object Representations in Vision Models
- Title(参考訳): 視覚モデルにおける人間のような粗い物体表現
- Authors: Andrey Gizdov, Andrea Procopio, Yichen Li, Daniel Harari, Tomer Ullman,
- Abstract要約: 人間は、ほとんど未知の「粗い体」で直感的な物理学の物体を表す。
このような物体に悪影響を及ぼす可能性のある画素精度マスクを最適化する。
人間の行動との整合性は、U字形の逆曲線に従う。
- 参考スコア(独自算出の注目度): 7.548979981481746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans appear to represent objects for intuitive physics with coarse, volumetric bodies'' that smooth concavities - trading fine visual details for efficient physical predictions - yet their internal structure is largely unknown. Segmentation models, in contrast, optimize pixel-accurate masks that may misalign with such bodies. We ask whether and when these models nonetheless acquire human-like bodies. Using a time-to-collision (TTC) behavioral paradigm, we introduce a comparison pipeline and alignment metric, then vary model training time, size, and effective capacity via pruning. Across all manipulations, alignment with human behavior follows an inverse U-shaped curve: small/briefly trained/pruned models under-segment into blobs; large/fully trained models over-segment with boundary wiggles; and an intermediate ideal body granularity'' best matches humans. This suggests human-like coarse bodies emerge from resource constraints rather than bespoke biases, and points to simple knobs - early checkpoints, modest architectures, light pruning - for eliciting physics-efficient representations. We situate these results within resource-rational accounts balancing recognition detail against physical affordances.
- Abstract(参考訳): 人間は、滑らかな凹凸、効率的な物理的予測のために細かな視覚的詳細を交換する「粗い体」で直感的な物理学の物体を表すように見えるが、その内部構造はほとんど不明である。
対照的に、セグメンテーションモデルは、そのような物体と不一致となる可能性のあるピクセル精度のマスクを最適化する。
いずれにせよ、これらのモデルが人間のような体を手に入れるかどうかを問う。
我々は,TTC(Time-to-collision)の行動パラダイムを用いて,比較パイプラインとアライメントメトリックを導入し,モデルトレーニング時間,サイズ,実効能力を変化させる。
すべての操作において、人間の行動とのアライメントは、逆U字型の曲線に従っている: 小規模で訓練された/訓練されたモデルがブロブに下降し、大きな/十分に訓練されたモデルが境界ウィグルでオーバー降し、そして中間理想の身体の粒度が人間と一致している。
これは、人間のような粗い体は、偏見よりもリソースの制約から生まれ、物理効率の良い表現を引き出すための単純なノブ(初期チェックポイント、控えめなアーキテクチャ、ライトプルーニング)を指している。
我々は、これらの結果を、物理価格に対する認識の詳細のバランスをとるリソース・リレーショナル・アカウントに配置する。
関連論文リスト
- Towards aligned body representations in vision models [7.548979981481746]
セグメンテーションのために訓練された視覚モデルが、同等の表現を発達させるかどうかを検証する。
より小さなモデルは自然に人間のように粗いボディ表現を形成するのに対し、大きなモデルは細かな細かなエンコーディングをする傾向にある。
論文 参考訳(メタデータ) (2025-11-29T07:25:32Z) - Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning [50.76723760768117]
既存の人間のポーズ推定手法では、既存の映像からもっともらしい密接な相互作用を回復できない。
人間の外見は、これらの障害に対処するための簡単な手がかりとなる。
本研究では,人間の外見,社会的プロキシ,物理法則に制約された身体接触により,正確な対話動作を再構築するための2分岐最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-03T12:19:26Z) - Investigating Fine- and Coarse-grained Structural Correspondences Between Deep Neural Networks and Human Object Image Similarity Judgments Using Unsupervised Alignment [0.14999444543328289]
我々は、Gromov-Wasserstein Optimal Transportに基づく教師なしアライメント手法を用いて、人間とモデルオブジェクトの表現を比較する。
CLIPでトレーニングされたモデルは、人間のオブジェクト表現と強い微粒化と粗粒化のマッチングを一貫して達成している。
この結果から,正確な対象表現の獲得における言語情報の役割について,新たな知見が得られた。
論文 参考訳(メタデータ) (2025-05-22T09:06:06Z) - Contour Integration Underlies Human-Like Vision [2.6716072974490794]
人間は、物体の輪郭がほとんどなくても、高精度に行動する。
人間は統合バイアスを示します -- 方向のないフラグメントよりも、方向のないフラグメントで構成されたオブジェクトを認識することを好むのです。
論文 参考訳(メタデータ) (2025-04-07T16:45:06Z) - Learning Visibility for Robust Dense Human Body Estimation [78.37389398573882]
2D画像から3Dのポーズと形状を推定することは、非常に難しい課題だ。
部分的な観察に頑健な高密度な人体推定を学習する。
我々は、高密度UV通信から可視性ラベルの擬似基底構造を取得し、3次元座標とともに可視性を予測するニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2022-08-23T00:01:05Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Deep Physics-aware Inference of Cloth Deformation for Monocular Human
Performance Capture [84.73946704272113]
物理をトレーニングプロセスに統合することで、学習した布の変形が改善し、衣服を別の幾何学的要素としてモデル化できることを示す。
提案手法は現在の最先端手法よりも大幅に改善され,人間の衣服の変形面全体に対する現実的なモノクロキャプチャに向けた明確なステップとなる。
論文 参考訳(メタデータ) (2020-11-25T16:46:00Z) - Monocular Human Pose and Shape Reconstruction using Part Differentiable
Rendering [53.16864661460889]
近年の研究では、3次元基底真理によって教師されるディープニューラルネットワークを介してパラメトリックモデルを直接推定する回帰に基づく手法が成功している。
本稿では,ボディセグメンテーションを重要な監視対象として紹介する。
部分分割による再構成を改善するために,部分分割により部分ベースモデルを制御可能な部分レベル微分可能部を提案する。
論文 参考訳(メタデータ) (2020-03-24T14:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。