Fugu-MT 論文翻訳(概要): MIMo: A Multi-Modal Infant Model for Studying Cognitive Development

論文の概要: MIMo: A Multi-Modal Infant Model for Studying Cognitive Development

arxiv url: http://arxiv.org/abs/2312.04318v1
Date: Thu, 7 Dec 2023 14:21:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 14:41:53.456502
Title: MIMo: A Multi-Modal Infant Model for Studying Cognitive Development
Title（参考訳）: MIMO:認知発達研究のためのマルチモーダル幼児モデル
Authors: Dominik Mattern, Pierre Schumacher, Francisco M. L\'opez, Marcel C. Raabe, Markus R. Ernst, Arthur Aubret, Jochen Triesch
Abstract要約: コンピュータシミュレーションによる早期認知発達研究のためのオープンソースの幼児モデルMIMoを提案する。 MIMOはその周囲を両眼視、前庭系、前立腺、そして全身の仮想皮膚を通して知覚する。
参考スコア（独自算出の注目度）: 3.5009119465343033
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human intelligence and human consciousness emerge gradually during the process of cognitive development. Understanding this development is an essential aspect of understanding the human mind and may facilitate the construction of artificial minds with similar properties. Importantly, human cognitive development relies on embodied interactions with the physical and social environment, which is perceived via complementary sensory modalities. These interactions allow the developing mind to probe the causal structure of the world. This is in stark contrast to common machine learning approaches, e.g., for large language models, which are merely passively ``digesting'' large amounts of training data, but are not in control of their sensory inputs. However, computational modeling of the kind of self-determined embodied interactions that lead to human intelligence and consciousness is a formidable challenge. Here we present MIMo, an open-source multi-modal infant model for studying early cognitive development through computer simulations. MIMo's body is modeled after an 18-month-old child with detailed five-fingered hands. MIMo perceives its surroundings via binocular vision, a vestibular system, proprioception, and touch perception through a full-body virtual skin, while two different actuation models allow control of his body. We describe the design and interfaces of MIMo and provide examples illustrating its use. All code is available at https://github.com/trieschlab/MIMo .
Abstract（参考訳）: 人間の知性と人間の意識は認知発達の過程で徐々に現われる。この発展を理解することは人間の心を理解する上で不可欠な側面であり、同様の性質を持つ人工心の構築を促進する可能性がある。重要なことは、人間の認知発達は、相補的な感覚モダリティによって知覚される身体的・社会的環境との具体的相互作用に依存している。これらの相互作用により、発達する心は世界の因果構造を探索することができる。これは、例えば、大きな言語モデルに対する一般的な機械学習アプローチとは対照的であり、単に受動的に『消化』された大量のトレーニングデータであるが、感覚入力を制御していない。しかし、人間の知性と意識に繋がる自己決定された身体的相互作用の計算モデリングは、非常に難しい課題である。ここでは、コンピュータシミュレーションによる早期認知発達研究のためのオープンソースのマルチモーダル幼児モデルMIMoを紹介する。ミモの体は5本指の詳細な手を持つ18ヶ月の子供のモデルとなっている。 MIMOは両眼視、前庭系、前頭葉系、触覚を全身の仮想皮膚を通じて知覚し、2つの異なるアクチュエーターモデルで身体の制御を可能にしている。我々は、mimoの設計とインターフェースを説明し、その使用例を示す。すべてのコードはhttps://github.com/trieschlab/MIMoで入手できる。

関連論文リスト

Discovering Hidden Visual Concepts Beyond Linguistic Input in Infant Learning [18.43931715859825]
コンピュータビジョンが人間の視覚システムを再現しようとすると、幼児の視覚発達を理解することは貴重な洞察を与えるかもしれない。本稿では,この問題を探求する学際的研究について述べる。幼児の学習過程を模倣する計算モデルは、幼児が自然に学ぶのと同じように、より広い視覚概念を発達させることができるか? 我々の研究は、幼児の視覚的および言語的入力に基づいて訓練された計算モデルの内部表現を分析することによって、認知科学とコンピュータビジョンを橋渡しする。
論文参考訳（メタデータ） (2025-01-09T12:55:55Z)
Towards Interpretable Visuo-Tactile Predictive Models for Soft Robot Interactions [2.4100803794273]
ロボットエージェントの現実の状況への統合は、知覚能力に依存している。我々は、周囲を探索するために、様々な感覚モダリティの融合の上に構築する。生の感覚モダリティに応用されたディープラーニングは、実行可能な選択肢を提供する。我々は、知覚モデルとその制御目的への含意の展望を掘り下げる。
論文参考訳（メタデータ） (2024-07-16T21:46:04Z)
Visual cognition in multimodal large language models [12.603212933816206]
近年の進歩は、人間のような認知能力をエミュレートする可能性への関心を再燃させた。本稿では、直観物理学、因果推論、直観心理学の分野における視覚に基づく大規模言語モデルの現状を評価する。
論文参考訳（メタデータ） (2023-11-27T18:58:34Z)
World Models and Predictive Coding for Cognitive and Developmental Robotics: Frontiers and Challenges [51.92834011423463]
我々は世界モデルと予測符号化の2つの概念に焦点を当てる。神経科学において、予測符号化は、脳がその入力を継続的に予測し、その環境における自身のダイナミクスと制御行動のモデル化に適応するように提案する。
論文参考訳（メタデータ） (2023-01-14T06:38:14Z)
Learning body models: from humans to humanoids [2.855485723554975]
人間と動物は、複数の感覚のモダリティからの情報を組み合わせて、複雑な体を制御し、成長、失敗、ツールの使用に適応する。鍵となる基礎は、エージェント(人間、動物、ロボット)が開発してきた身体の内部表現である。脳内での体モデルの操作のメカニズムは、ほとんど不明であり、出生後の経験からどのように構築されているかは、あまり分かっていない。
論文参考訳（メタデータ） (2022-11-06T07:30:01Z)
WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文参考訳（メタデータ） (2021-10-27T12:25:21Z)
From internal models toward metacognitive AI [0.0]
前頭前皮質では、「認知現実監視ネットワーク」と呼ばれる分散型エグゼクティブネットワークが、生成的逆モデルペアの意識的な関与を編成する。高い責任信号は、外界を最も捉えているペアに与えられる。意識はすべての対における責任信号のエントロピーによって決定される。
論文参考訳（メタデータ） (2021-09-27T05:00:56Z)
Cognitive architecture aided by working-memory for self-supervised multi-modal humans recognition [54.749127627191655]
人間パートナーを認識する能力は、パーソナライズされた長期的な人間とロボットの相互作用を構築するための重要な社会的スキルです。ディープラーニングネットワークは最先端の結果を達成し,そのような課題に対処するための適切なツールであることが実証された。 1つの解決策は、ロボットに自己スーパービジョンで直接の感覚データから学習させることである。
論文参考訳（メタデータ） (2021-03-16T13:50:24Z)
AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文参考訳（メタデータ） (2021-02-24T14:58:23Z)
Crossmodal Language Grounding in an Embodied Neurocognitive Model [28.461246169379685]
ヒトの幼児は早期に自然言語を習得することができる。神経科学的な観点では、自然言語は具現化され、ほとんど全てではなく、感覚と感覚のモダリティに基礎を置いている。バイオインスパイアされたメカニズムを反映した言語接地のための神経認知モデルを提案する。
論文参考訳（メタデータ） (2020-06-24T08:12:09Z)
Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文参考訳（メタデータ） (2020-06-15T13:59:47Z)
A Developmental Neuro-Robotics Approach for Boosting the Recognition of Handwritten Digits [91.3755431537592]
近年のエビデンスでは、子どもの体現戦略をシミュレーションすることで、マシンインテリジェンスも改善できることが示されている。本稿では,発達神経ロボティクスの文脈における畳み込みニューラルネットワークモデルへの具体的戦略の適用について検討する。
論文参考訳（メタデータ） (2020-03-23T14:55:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。