Fugu-MT 論文翻訳(概要): Towards aligned body representations in vision models

論文の概要: Towards aligned body representations in vision models

arxiv url: http://arxiv.org/abs/2512.00365v1
Date: Sat, 29 Nov 2025 07:25:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-02 19:46:34.196243
Title: Towards aligned body representations in vision models
Title（参考訳）: 視覚モデルにおける身体表現の整列化に向けて
Authors: Andrey Gizdov, Andrea Procopio, Yichen Li, Daniel Harari, Tomer Ullman,
Abstract要約: セグメンテーションのために訓練された視覚モデルが、同等の表現を発達させるかどうかを検証する。より小さなモデルは自然に人間のように粗いボディ表現を形成するのに対し、大きなモデルは細かな細かなエンコーディングをする傾向にある。
参考スコア（独自算出の注目度）: 7.548979981481746
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Human physical reasoning relies on internal "body" representations - coarse, volumetric approximations that capture an object's extent and support intuitive predictions about motion and physics. While psychophysical evidence suggests humans use such coarse representations, their internal structure remains largely unknown. Here we test whether vision models trained for segmentation develop comparable representations. We adapt a psychophysical experiment conducted with 50 human participants to a semantic segmentation task and test a family of seven segmentation networks, varying in size. We find that smaller models naturally form human-like coarse body representations, whereas larger models tend toward overly detailed, fine-grain encodings. Our results demonstrate that coarse representations can emerge under limited computational resources, and that machine representations can provide a scalable path toward understanding the structure of physical reasoning in the brain.
Abstract（参考訳）: 人間の身体的推論は内部の「身体」表現に依存しており、粗い、容積近似は物体の範囲を捉え、動きや物理学に関する直感的な予測をサポートする。心理学的な証拠は、人間がそのような粗い表現を使うことを示しているが、その内部構造はほとんど不明である。ここでは、セグメンテーションのために訓練された視覚モデルが、同等の表現を発達させるかどうかをテストする。我々は,50人の被験者による心理物理学的な実験を意味的セグメンテーションタスクに適応させ,7つのセグメンテーションネットワークのファミリーをテストする。より小さなモデルは自然に人間のように粗いボディ表現を形成するのに対し、大きなモデルは細かな細かなエンコーディングをする傾向にある。本研究は,機械表現が脳内の物理的推論の構造を理解するためのスケーラブルな経路を提供することができることを示す。

関連論文リスト

Human-level 3D shape perception emerges from multi-view learning [63.048728487674815]
任意のオブジェクトに対する人間の3次元形状推論を予測するためのモデリングフレームワークを開発する。我々は、自然主義的な知覚データよりも視覚空間的目的を用いて訓練された新しいニューラルネットワークのクラスでこれを達成した。人間のレベル3D知覚は、自然主義的な視覚空間データよりもシンプルでスケーラブルな学習目標から生まれる可能性がある。
論文参考訳（メタデータ） (2026-02-19T18:56:05Z)
Human-Like Coarse Object Representations in Vision Models [7.548979981481746]
人間は、ほとんど未知の「粗い体」で直感的な物理学の物体を表す。このような物体に悪影響を及ぼす可能性のある画素精度マスクを最適化する。人間の行動との整合性は、U字形の逆曲線に従う。
論文参考訳（メタデータ） (2026-02-12T23:59:58Z)
Revealing emergent human-like conceptual representations from language prediction [90.73285317321312]
大規模言語モデル(LLMs)は、人間らしい振る舞いを示すテキストの次のトーケン予測によってのみ訓練される。これらのモデルでは、概念は人間のものと似ていますか? LLMは、他の概念に関する文脈的手がかりに関連して、言語記述から柔軟に概念を導出できることがわかった。
論文参考訳（メタデータ） (2025-01-21T23:54:17Z)
When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
Dual Thinking and Logical Processing -- Are Multi-modal Large Language Models Closing the Gap with Human Vision ? [5.076961098583674]
我々は、人間の視覚における二重思考の枠組みの証拠を提供するために、新しい敵対的データセットを導入する。私たちの精神物理学的な研究は、急速に続く複数の推論の存在を示しています。エラーの解析は、視覚処理の早期停止は、関連する情報が欠落する可能性があることを示している。
論文参考訳（メタデータ） (2024-06-11T05:50:34Z)
Human-Like Geometric Abstraction in Large Pre-trained Neural Networks [6.650735854030166]
幾何学的視覚処理の認知科学における経験的結果を再考する。幾何学的視覚処理における3つの重要なバイアスを同定する。我々は、人間のバイアスを調査する文献からタスクをテストし、AIで使用される大規模なトレーニング済みニューラルネットワークモデルにより、より人間的な抽象幾何学的処理が示されることを示した。
論文参考訳（メタデータ） (2024-02-06T17:59:46Z)
Evaluating alignment between humans and neural network representations in image-based learning tasks [5.657101730705275]
トレーニング済みの860ドルのニューラルネットワークモデルの表現が、人間の学習軌跡にどのようにマッピングされているかテストしました。トレーニングデータセットのサイズは人間の選択に沿った中核的な決定要因であるのに対し、マルチモーダルデータ(テキストと画像)による対照的なトレーニングは、人間の一般化を予測するために現在公開されているモデルの一般的な特徴であることがわかった。結論として、事前訓練されたニューラルネットワークは、タスク間で伝達可能な認知の基本的な側面を捉えているように見えるため、認知モデルのための表現を抽出するのに役立つ。
論文参考訳（メタデータ） (2023-06-15T08:18:29Z)
Intrinsic Physical Concepts Discovery with Object-Centric Predictive Models [86.25460882547581]
PHYsical Concepts Inference NEtwork (PHYCINE) は、異なる抽象レベルの物理概念を監督なしで推論するシステムである。物理概念変数を含むオブジェクト表現は因果推論タスクの性能向上に有効であることを示す。
論文参考訳（メタデータ） (2023-03-03T11:52:21Z)
3D Shape Perception Integrates Intuitive Physics and Analysis-by-Synthesis [39.933479524063976]
典型例と非典型例の両方で知覚を説明する3次元形状知覚フレームワークを提案する。以上の結果から,ボトムアップ型ディープニューラルネットワークモデルでは,人間の形状知覚が十分に考慮されていないことが示唆された。
論文参考訳（メタデータ） (2023-01-09T23:11:41Z)
Human alignment of neural network representations [28.32452075196472]
ニューラルネットワークで学習した表現と行動応答から推定される人間の心的表現のアライメントに影響を与える要因について検討する。モデルスケールとアーキテクチャは基本的に人間の行動応答に影響を与えないことがわかった。食物や動物などの人間の概念はニューラルネットワークによってよく表現されているのに対し、ロイヤルやスポーツ関連の物体はそうではない。
論文参考訳（メタデータ） (2022-11-02T15:23:16Z)
PTR: A Benchmark for Part-based Conceptual, Relational, and Physical Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。 PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文参考訳（メタデータ） (2021-12-09T18:59:34Z)
LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文参考訳（メタデータ） (2021-11-30T04:10:57Z)
Physion: Evaluating Physical Prediction from Vision in Humans and Machines [46.19008633309041]
我々は、この能力を正確に測定する視覚的および身体的予測ベンチマークを示す。我々は、様々な物理予測を行う能力について、アルゴリズムの配列を比較した。物理的な状態にアクセス可能なグラフニューラルネットワークは、人間の振る舞いを最もよく捉えている。
論文参考訳（メタデータ） (2021-06-15T16:13:39Z)
Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文参考訳（メタデータ） (2020-04-28T17:06:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。