論文の概要: Grounding Intelligence in Movement
- arxiv url: http://arxiv.org/abs/2507.02771v1
- Date: Thu, 03 Jul 2025 16:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.593299
- Title: Grounding Intelligence in Movement
- Title(参考訳): 運動における接地知能
- Authors: Melanie Segado, Felipe Parodi, Jordan K. Matelsky, Michael L. Platt, Eva B. Dyer, Konrad P. Kording,
- Abstract要約: 機械学習の最近の進歩により、言語、視覚、その他の高次元データをモデル化する能力が劇的に向上した。
神経科学、医学、ロボティクス、倫理学全般において、行動の解釈、意図の予測、相互作用の実現には運動が不可欠である。
運動はAIの主要なモデリング対象として扱われるべきである、と我々は主張する。
- 参考スコア(独自算出の注目度): 0.9895793818721335
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in machine learning have dramatically improved our ability to model language, vision, and other high-dimensional data, yet they continue to struggle with one of the most fundamental aspects of biological systems: movement. Across neuroscience, medicine, robotics, and ethology, movement is essential for interpreting behavior, predicting intent, and enabling interaction. Despite its core significance in our intelligence, movement is often treated as an afterthought rather than as a rich and structured modality in its own right. This reflects a deeper fragmentation in how movement data is collected and modeled, often constrained by task-specific goals and domain-specific assumptions. But movement is not domain-bound. It reflects shared physical constraints, conserved morphological structures, and purposeful dynamics that cut across species and settings. We argue that movement should be treated as a primary modeling target for AI. It is inherently structured and grounded in embodiment and physics. This structure, often allowing for compact, lower-dimensional representations (e.g., pose), makes it more interpretable and computationally tractable to model than raw, high-dimensional sensory inputs. Developing models that can learn from and generalize across diverse movement data will not only advance core capabilities in generative modeling and control, but also create a shared foundation for understanding behavior across biological and artificial systems. Movement is not just an outcome, it is a window into how intelligent systems engage with the world.
- Abstract(参考訳): 機械学習の最近の進歩は、言語、視覚、その他の高次元データをモデル化する能力を劇的に改善した。
神経科学、医学、ロボティクス、倫理学全般において、行動の解釈、意図の予測、相互作用の実現には運動が不可欠である。
私たちの知性においてその中核的な重要性にもかかわらず、運動はそれ自体が豊かで構造化されたモダリティとしてではなく、後から考えるものとして扱われることが多い。
これは、ムーブメントデータがどのように収集され、モデル化され、しばしばタスク固有の目標とドメイン固有の仮定によって制約されるかにおいて、より深い断片化を反映している。
しかし、ムーブメントはドメインバウンドではありません。
これは、共有された物理的制約、保存された形態構造、種や設定を横断する目的のあるダイナミクスを反映している。
運動はAIの主要なモデリング対象として扱われるべきである、と我々は主張する。
自然に構造され、エンボディメントと物理学に基礎を置いている。
この構造は、しばしばコンパクトで低次元の表現(例えば、ポーズ)を可能にするため、生の高次元の感覚入力よりも解釈可能で、より計算的にモデル化できる。
多様な運動データから学習し、一般化できるモデルを開発することは、生成的モデリングと制御のコア能力を前進させるだけでなく、生物学的および人工的なシステム間での行動を理解するための共通基盤を作る。
ムーブメントは単なる成果ではなく、インテリジェントシステムが世界とどのように関わるかの窓口なのです。
関連論文リスト
- Human sensory-musculoskeletal modeling and control of whole-body movements [10.253693485647444]
感覚筋骨格系の動的モデルの構築は、運動制御の理解と人間の行動の調査に不可欠である。
骨,関節,筋腱の正確な解剖学的表現を統合した,SMS-Humanと呼ばれるヒトの感覚・筋骨格モデルについて報告する。
論文 参考訳(メタデータ) (2025-05-29T16:42:08Z) - PhyGrasp: Generalizing Robotic Grasping with Physics-informed Large
Multimodal Models [58.33913881592706]
人間は、自分の直感的な物理学を巧みに把握し、これまで見たことのない物体であっても、効率的に把握を変更できる。
この研究は、そのような物理的常識的推論をロボット操作に注入することに注力している。
自然言語と3次元点雲の2つのモードからの入力を利用するマルチモーダル大モデルであるPhyGraspを紹介する。
論文 参考訳(メタデータ) (2024-02-26T18:57:52Z) - Dynamic planning in hierarchical active inference [0.0]
人間の脳が認知決定に関連する運動軌跡を推論し、導入する能力について述べる。
本研究では,アクティブ推論における動的計画の話題に焦点を当てた。
論文 参考訳(メタデータ) (2024-02-18T17:32:53Z) - GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。
現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。
GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文 参考訳(メタデータ) (2023-08-22T17:59:51Z) - Persistent-Transient Duality: A Multi-mechanism Approach for Modeling
Human-Object Interaction [58.67761673662716]
人間は高度に適応可能で、異なるタスク、状況、状況を扱うために異なるモードを素早く切り替える。
人間と物体の相互作用(HOI)において、これらのモードは、(1)活動全体に対する大規模な一貫した計画、(2)タイムラインに沿って開始・終了する小規模の子どもの対話的行動の2つのメカニズムに起因していると考えられる。
本研究は、人間の動作を協調的に制御する2つの同時メカニズムをモデル化することを提案する。
論文 参考訳(メタデータ) (2023-07-24T12:21:33Z) - Modelling Human Visual Motion Processing with Trainable Motion Energy
Sensing and a Self-attention Network [1.9458156037869137]
本稿では,生体とコンピュータの視覚モデルとのギャップを埋めることで,人間の動作知覚のイメージ計算可能なモデルを提案する。
このモデルアーキテクチャは、生体視覚システムにおける運動知覚のコア構造であるV1-MTの計算を捉えることを目的としている。
サイリコ神経生理学では、我々のモデルの単位応答は、運動プーリングやスピードチューニングに関する哺乳類の神経記録に類似していることが明らかになっている。
論文 参考訳(メタデータ) (2023-05-16T04:16:07Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。