論文の概要: MIMo: A Multi-Modal Infant Model for Studying Cognitive Development
- arxiv url: http://arxiv.org/abs/2312.04318v1
- Date: Thu, 7 Dec 2023 14:21:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 14:41:53.456502
- Title: MIMo: A Multi-Modal Infant Model for Studying Cognitive Development
- Title(参考訳): MIMO:認知発達研究のためのマルチモーダル幼児モデル
- Authors: Dominik Mattern, Pierre Schumacher, Francisco M. L\'opez, Marcel C.
Raabe, Markus R. Ernst, Arthur Aubret, Jochen Triesch
- Abstract要約: コンピュータシミュレーションによる早期認知発達研究のためのオープンソースの幼児モデルMIMoを提案する。
MIMOはその周囲を両眼視、前庭系、前立腺、そして全身の仮想皮膚を通して知覚する。
- 参考スコア(独自算出の注目度): 3.5009119465343033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human intelligence and human consciousness emerge gradually during the
process of cognitive development. Understanding this development is an
essential aspect of understanding the human mind and may facilitate the
construction of artificial minds with similar properties. Importantly, human
cognitive development relies on embodied interactions with the physical and
social environment, which is perceived via complementary sensory modalities.
These interactions allow the developing mind to probe the causal structure of
the world. This is in stark contrast to common machine learning approaches,
e.g., for large language models, which are merely passively ``digesting'' large
amounts of training data, but are not in control of their sensory inputs.
However, computational modeling of the kind of self-determined embodied
interactions that lead to human intelligence and consciousness is a formidable
challenge. Here we present MIMo, an open-source multi-modal infant model for
studying early cognitive development through computer simulations. MIMo's body
is modeled after an 18-month-old child with detailed five-fingered hands. MIMo
perceives its surroundings via binocular vision, a vestibular system,
proprioception, and touch perception through a full-body virtual skin, while
two different actuation models allow control of his body. We describe the
design and interfaces of MIMo and provide examples illustrating its use. All
code is available at https://github.com/trieschlab/MIMo .
- Abstract(参考訳): 人間の知性と人間の意識は認知発達の過程で徐々に現われる。
この発展を理解することは人間の心を理解する上で不可欠な側面であり、同様の性質を持つ人工心の構築を促進する可能性がある。
重要なことは、人間の認知発達は、相補的な感覚モダリティによって知覚される身体的・社会的環境との具体的相互作用に依存している。
これらの相互作用により、発達する心は世界の因果構造を探索することができる。
これは、例えば、大きな言語モデルに対する一般的な機械学習アプローチとは対照的であり、単に受動的に『消化』された大量のトレーニングデータであるが、感覚入力を制御していない。
しかし、人間の知性と意識に繋がる自己決定された身体的相互作用の計算モデリングは、非常に難しい課題である。
ここでは、コンピュータシミュレーションによる早期認知発達研究のためのオープンソースのマルチモーダル幼児モデルMIMoを紹介する。
ミモの体は5本指の詳細な手を持つ18ヶ月の子供のモデルとなっている。
MIMOは両眼視、前庭系、前頭葉系、触覚を全身の仮想皮膚を通じて知覚し、2つの異なるアクチュエーターモデルで身体の制御を可能にしている。
我々は、mimoの設計とインターフェースを説明し、その使用例を示す。
すべてのコードはhttps://github.com/trieschlab/MIMoで入手できる。
関連論文リスト
- Visual cognition in multimodal large language models [13.768104721550321]
本稿では、直観物理学、因果推論、直観心理学の分野における視覚に基づく大規模言語モデルの現状を評価する。
その結果、これらのモデルは、視覚データの処理と解釈において顕著な熟練度を示す一方で、これらの領域における人間の能力に欠けていることが判明した。
論文 参考訳(メタデータ) (2023-11-27T18:58:34Z) - Generating Human-Centric Visual Cues for Human-Object Interaction
Detection via Large Vision-Language Models [59.611697856666304]
人-物対検出(Human-object Interaction:HOI)は、人-物対を検出し、その相互作用を予測することを目的とする。
我々はVLMを用いた3つのプロンプトを提案し、人間の複数の視点から画像内で人間中心の視覚的手がかりを生成する。
我々は,マルチトワーアーキテクチャを用いたトランスフォーマーベースのマルチモーダル融合モジュールを開発し,視覚的キュー機能をインスタンスと対話デコーダに統合する。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - World Models and Predictive Coding for Cognitive and Developmental
Robotics: Frontiers and Challenges [51.92834011423463]
我々は世界モデルと予測符号化の2つの概念に焦点を当てる。
神経科学において、予測符号化は、脳がその入力を継続的に予測し、その環境における自身のダイナミクスと制御行動のモデル化に適応するように提案する。
論文 参考訳(メタデータ) (2023-01-14T06:38:14Z) - Learning body models: from humans to humanoids [2.855485723554975]
人間と動物は、複数の感覚のモダリティからの情報を組み合わせて、複雑な体を制御し、成長、失敗、ツールの使用に適応する。
鍵となる基礎は、エージェント(人間、動物、ロボット)が開発してきた身体の内部表現である。
脳内での体モデルの操作のメカニズムは、ほとんど不明であり、出生後の経験からどのように構築されているかは、あまり分かっていない。
論文 参考訳(メタデータ) (2022-11-06T07:30:01Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - From internal models toward metacognitive AI [0.0]
前頭前皮質では、「認知現実監視ネットワーク」と呼ばれる分散型エグゼクティブネットワークが、生成的逆モデルペアの意識的な関与を編成する。
高い責任信号は、外界を最も捉えているペアに与えられる。
意識はすべての対における責任信号のエントロピーによって決定される。
論文 参考訳(メタデータ) (2021-09-27T05:00:56Z) - Cognitive architecture aided by working-memory for self-supervised
multi-modal humans recognition [54.749127627191655]
人間パートナーを認識する能力は、パーソナライズされた長期的な人間とロボットの相互作用を構築するための重要な社会的スキルです。
ディープラーニングネットワークは最先端の結果を達成し,そのような課題に対処するための適切なツールであることが実証された。
1つの解決策は、ロボットに自己スーパービジョンで直接の感覚データから学習させることである。
論文 参考訳(メタデータ) (2021-03-16T13:50:24Z) - Whole brain Probabilistic Generative Model toward Realizing Cognitive
Architecture for Developmental Robots [8.941833998120904]
人間のような統合型人工認知システム、すなわち人工知能を構築することは、人工知能と開発ロボティクスの目標の1つだ。
本稿では、確率的生成モデル(PGM)を用いて人間の認知システムを完全に反映する認知アーキテクチャの開発について述べる。
論文 参考訳(メタデータ) (2021-03-15T07:42:04Z) - AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。
他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。
本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:58:23Z) - Crossmodal Language Grounding in an Embodied Neurocognitive Model [28.461246169379685]
ヒトの幼児は早期に自然言語を習得することができる。
神経科学的な観点では、自然言語は具現化され、ほとんど全てではなく、感覚と感覚のモダリティに基礎を置いている。
バイオインスパイアされたメカニズムを反映した言語接地のための神経認知モデルを提案する。
論文 参考訳(メタデータ) (2020-06-24T08:12:09Z) - Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである
本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文 参考訳(メタデータ) (2020-06-15T13:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。