論文の概要: Zero-shot World Models Are Developmentally Efficient Learners
- arxiv url: http://arxiv.org/abs/2604.10333v1
- Date: Sat, 11 Apr 2026 19:32:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.959442
- Title: Zero-shot World Models Are Developmentally Efficient Learners
- Title(参考訳): ゼロショット世界モデルは、発達的に効率的な学習者である
- Authors: Khai Loong Aw, Klemen Kotar, Wanhee Lee, Seungwoo Kim, Khaled Jedoui, Rahul Venkatesh, Lilian Naing Chen, Michael C. Frank, Daniel L. K. Yamins,
- Abstract要約: 幼い子供たちは、自分の物理的世界を理解する早期能力を示します。
ゼロショット視覚世界モデル(Zero-shot Visual World Model)を提案する。
一人の子どもの初対人体験からZWMを学習できることが示される。
- 参考スコア(独自算出の注目度): 8.29886792024518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Young children demonstrate early abilities to understand their physical world, estimating depth, motion, object coherence, interactions, and many other aspects of physical scene understanding. Children are both data-efficient and flexible cognitive systems, creating competence despite extremely limited training data, while generalizing to myriad untrained tasks -- a major challenge even for today's best AI systems. Here we introduce a novel computational hypothesis for these abilities, the Zero-shot Visual World Model (ZWM). ZWM is based on three principles: a sparse temporally-factored predictor that decouples appearance from dynamics; zero-shot estimation through approximate causal inference; and composition of inferences to build more complex abilities. We show that ZWM can be learned from the first-person experience of a single child, rapidly generating competence across multiple physical understanding benchmarks. It also broadly recapitulates behavioral signatures of child development and builds brain-like internal representations. Our work presents a blueprint for efficient and flexible learning from human-scale data, advancing both a computational account for children's early physical understanding and a path toward data-efficient AI systems.
- Abstract(参考訳): 幼児は、自分の身体的世界を理解し、深度、動き、物体のコヒーレンス、相互作用、その他の身体的シーン理解の多くの側面を推定する初期の能力を示す。
子どもたちはデータ効率とフレキシブルな認知システムの両方であり、非常に限られたトレーニングデータにもかかわらず能力を生み出す一方で、訓練されていないタスクに一般化することは、今日の最高のAIシステムにおいても大きな課題だ。
本稿では,ZWM(Zero-shot Visual World Model)という新たな計算理論を導入する。
ZWMは3つの原理に基づいている: 時間分解予測器は、ダイナミックスから外見を分離し、近似因果推論によるゼロショット推定、より複雑な能力を構築するための推論の構成である。
ZWMは1人の子どもの初対人体験から学習でき、複数の身体的理解ベンチマークの能力が急速に向上することを示す。
また、子育ての行動的シグネチャを広範囲に再カプセル化し、脳のような内部表現を構築する。
我々の研究は、人間のスケールデータから効率的で柔軟な学習のための青写真を示し、子供の初期の身体的理解のための計算的説明と、データ効率のよいAIシステムへの道のりの両方を前進させる。
関連論文リスト
- Minimal Embodiment Enables Efficient Learning of Number Concepts in Robot [44.96166832110118]
知的なシステムが感覚運動経験から抽象的な数値概念をいかに獲得するかは、認知科学と人工知能の基本的な課題である。
本稿では,フランカ・パンダのマニピュレータを用いた自然主義的ロボット操作による逐次カウントを行うニューラルネットワークモデルを用いて,具体的数値学習について検討する。
具現化モデルはトレーニングデータのわずか10%で96.8%の精度を達成しているのに対し、視覚のみのベースラインでは60.6%である。
論文 参考訳(メタデータ) (2026-04-13T12:14:58Z) - A Brain-like Synergistic Core in LLMs Drives Behaviour and Learning [50.68188138112555]
大規模言語モデルが自然に相乗的コアを開発することを示す。
中層の領域は相乗的処理を示し, 初期層と後期層は冗長性に依存していることがわかった。
この収束は、シナジスティック情報処理が知性の基本的な性質であることを示している。
論文 参考訳(メタデータ) (2026-01-11T10:48:35Z) - The Imperfect Learner: Incorporating Developmental Trajectories in Memory-based Student Simulation [55.722188569369656]
本稿では,メモリベースの学生シミュレーションのための新しいフレームワークを提案する。
構造的知識表現を備えた階層記憶機構を通じて発達軌道を組み込む。
実際に,次世代科学標準に基づくカリキュラム・アライン・シミュレータを実装した。
論文 参考訳(メタデータ) (2025-11-08T08:05:43Z) - Core Knowledge Deficits in Multi-Modal Language Models [41.422258645731276]
MLLM(Multi-modal Large Language Models)は、ハイレベルな認識と推論よりも印象的な能力を示す。
しかし、野生での頑丈さは限定的であり、人間にとって直感的で努力の無い仕事では不足することが多い。
これらの欠陥は,幼少期から人間に根ざした,中核的な知識の欠如に起因する,という仮説を考察する。
論文 参考訳(メタデータ) (2024-10-06T20:13:11Z) - The BabyView dataset: High-resolution egocentric videos of infants' and young children's everyday experiences [8.952954042940368]
このデータセットには、6か月から3歳までの子どもの、家庭内での縦断的、縦断的な自己中心的なビデオが含まれている。
我々は、自己教師型言語と視覚モデルを訓練し、配布外タスクへの移行を評価する。
私たちのデータセットは、堅牢で人間らしいAIシステムにとって、オープンな課題のひとつです。
論文 参考訳(メタデータ) (2024-06-14T23:52:27Z) - JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions [75.42526766746515]
本稿では,人間のインタラクティブ・フィクション(IF)ゲームプレイ・ウォークスルーに基づく新しいコモンセンス推論データセットを提案する。
本データセットは,事実知識ではなく,機能的コモンセンス知識ルールの評価に重点を置いている。
実験の結果、導入したデータセットは、以前の機械読影モデルと新しい大規模言語モデルに難題であることが示されている。
論文 参考訳(メタデータ) (2022-10-18T19:20:53Z) - A Benchmark for Compositional Visual Reasoning [5.576460160219606]
我々は、よりデータ効率のよい学習アルゴリズムへ進むために、新しいビジュアル推論ベンチマークであるコンポジションビジュアルリレーショナル(CVR)を導入する。
我々は,流体知能と非言語推論テストからインスピレーションを得て,抽象ルールと関連する画像データセットを大規模に作成するための新しい手法について述べる。
提案するベンチマークには, タスクルール間のサンプル効率, 一般化, 転送, および, 構成性を活用する能力が含まれている。
論文 参考訳(メタデータ) (2022-06-11T00:04:49Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - HALMA: Humanlike Abstraction Learning Meets Affordance in Rapid Problem
Solving [104.79156980475686]
人間は自然主義的タスクの構造に応じて構成的および因果的抽象化、つまり知識を学ぶ。
エージェントがその知識をどのように表現するかには、知覚、概念、アルゴリズムの3段階の一般化がある、と我々は主張する。
このベンチマークは、ビジュアルコンセプト開発と迅速な問題解決のための新しいタスクドメイン、HALMAを中心にしています。
論文 参考訳(メタデータ) (2021-02-22T20:37:01Z) - A Competence-aware Curriculum for Visual Concepts Learning via Question
Answering [95.35905804211698]
本稿では,視覚概念学習のための質問応答型カリキュラムを提案する。
視覚概念を学習するためのニューラルシンボリックな概念学習者と学習プロセスを導くための多次元項目応答理論(mIRT)モデルを設計する。
CLEVRの実験結果から,コンピテンスを意識したカリキュラムにより,提案手法は最先端のパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2020-07-03T05:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。