論文の概要: When do neural networks learn world models?
- arxiv url: http://arxiv.org/abs/2502.09297v1
- Date: Thu, 13 Feb 2025 13:11:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:47:37.249677
- Title: When do neural networks learn world models?
- Title(参考訳): ニューラルネットワークはいつ世界モデルを学ぶのか?
- Authors: Tianren Zhang, Guanyu Chen, Feng Chen,
- Abstract要約: 我々は、ニューラルネットワークが同様の世界モデルを学ぶことができるかどうかを研究する。
低次バイアスを持つモデルは、軽度の仮定の下で遅延データ生成変数を確実に回復することを示す。
- 参考スコア(独自算出の注目度): 5.998374495575507
- License:
- Abstract: Humans develop world models that capture the underlying generation process of data. Whether neural networks can learn similar world models remains an open problem. In this work, we provide the first theoretical results for this problem, showing that in a multi-task setting, models with a low-degree bias provably recover latent data-generating variables under mild assumptions -- even if proxy tasks involve complex, non-linear functions of the latents. However, such recovery is also sensitive to model architecture. Our analysis leverages Boolean models of task solutions via the Fourier-Walsh transform and introduces new techniques for analyzing invertible Boolean transforms, which may be of independent interest. We illustrate the algorithmic implications of our results and connect them to related research areas, including self-supervised learning, out-of-distribution generalization, and the linear representation hypothesis in large language models.
- Abstract(参考訳): 人間は、基礎となるデータ生成プロセスをキャプチャする世界モデルを開発する。
ニューラルネットワークが同様の世界モデルを学ぶことができるかどうかは、まだ未解決の問題だ。
本研究では、この問題に対する最初の理論的結果を提供し、マルチタスク環境では、低次偏差を持つモデルが穏やかな仮定の下で遅延データ生成変数を確実に回復することを示す。
しかし、そのようなリカバリはモデルアーキテクチャにも敏感である。
解析はフーリエ・ウォルシュ変換によるタスク解のブールモデルを利用し、独立性のある可逆ブール変換を解析するための新しい手法を導入する。
結果のアルゴリズム的含意を概説し, 自己教師付き学習, 分布外一般化, 大規模言語モデルにおける線形表現仮説など, 関連研究領域に関連付ける。
関連論文リスト
- Latent Variable Sequence Identification for Cognitive Models with Neural Network Estimators [7.7227297059345466]
本稿では,ニューラルベイズ推定を拡張して,実験データと対象変数空間との直接マッピングを学習する手法を提案する。
我々の研究は、リカレントニューラルネットワークとシミュレーションベースの推論を組み合わせることで、潜在変数配列を特定することで、研究者がより広範な認知モデルにアクセスできるようになることを強調している。
論文 参考訳(メタデータ) (2024-06-20T21:13:39Z) - Learning Divergence Fields for Shift-Robust Graph Representations [73.11818515795761]
本研究では,相互依存データに対する問題に対して,学習可能な分散場を持つ幾何学的拡散モデルを提案する。
因果推論によって新たな学習目標が導出され、ドメイン間で無神経な相互依存の一般化可能なパターンを学習するためのモデルが導出される。
論文 参考訳(メタデータ) (2024-06-07T14:29:21Z) - Generative Learning of Continuous Data by Tensor Networks [45.49160369119449]
本稿では,連続データのためのテンソルネットワーク生成モデルについて紹介する。
我々は、このモデルの性能を、いくつかの合成および実世界のデータセットでベンチマークする。
本手法は, 急速に成長する生成学習分野において, 量子インスピレーション法の有効性を示す重要な理論的, 実証的な証拠を与える。
論文 参考訳(メタデータ) (2023-10-31T14:37:37Z) - On sparse regression, Lp-regularization, and automated model discovery [0.0]
Lp正規化ニューラルネットワークは、解釈可能なモデルと物理的に意味のあるパラメータの両方を同時に検出できることを示す。
データから物質モデルを自動的に発見する能力は、生成材料設計に多大な応用をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-10-09T05:34:21Z) - On the Trade-off Between Efficiency and Precision of Neural Abstraction [62.046646433536104]
ニューラル抽象化は、最近、複雑な非線形力学モデルの形式近似として導入されている。
我々は形式的帰納的合成法を用いて、これらのセマンティクスを用いた動的モデルをもたらすニューラル抽象化を生成する。
論文 参考訳(メタデータ) (2023-07-28T13:22:32Z) - EINNs: Epidemiologically-Informed Neural Networks [75.34199997857341]
本稿では,疫病予測のための新しい物理インフォームドニューラルネットワークEINNを紹介する。
メカニスティックモデルによって提供される理論的柔軟性と、AIモデルによって提供されるデータ駆動表現性の両方を活用する方法について検討する。
論文 参考訳(メタデータ) (2022-02-21T18:59:03Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Learning Variational Data Assimilation Models and Solvers [34.22350850350653]
データ同化のためのエンドツーエンドニューラルネットワークアーキテクチャを導入する。
提案するエンドツーエンド学習アーキテクチャの重要な特徴は、教師なし戦略と教師なし戦略の両方を用いてNNモデルをトレーニングできることである。
論文 参考訳(メタデータ) (2020-07-25T14:28:48Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。