論文の概要: Multiscale Causal Learning
- arxiv url: http://arxiv.org/abs/2405.02325v2
- Date: Mon, 3 Jun 2024 14:38:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 14:58:30.776115
- Title: Multiscale Causal Learning
- Title(参考訳): マルチスケール因果学習
- Authors: Michael Timothy Bennett,
- Abstract要約: バイオインテリジェンスは人工知能(AI)よりもサンプリング効率が高い
弱政治最適化(WPO)により、より弱い政策を高レベルで合成できることを示す。
これは生物学、機械学習、AI安全性、哲学に影響を及ぼす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biological intelligence is more sample-efficient than artificial intelligence (AI), learning from fewer examples. Here we answer why. Given data, there can be many policies which seem "correct" because they perfectly fit the data. However, only one correct policy could have actually caused the data. Sample-efficiency requires a means of discerning which. Previous work showed sample efficiency is maximised by weak-policy-optimisation (WPO); preferring policies that more weakly constrain what is considered to be correct, given finite resources. Biology's sample-efficiency demonstrates it is better at WPO. To understand how, we formalise the "multiscale-competency-architecture" (MCA) observed in biological systems, as a sequence of nested "agentic-abstraction-layers". We show that WPO at low levels enables synthesis of weaker policies at high. We call this "multiscale-causal-learning", and argue this is how we might construct more scale-able, sample-efficient and reliable AI. Furthermore, a sufficiently weak policy at low levels is a precondition of collective policy at higher levels. The higher level "identity" of the collective is lost if lower levels use an insufficiently weak policy (e.g. cells may become isolated from the collective informational structure and revert to primitive behaviour). This has implications for biology, machine learning, AI-safety, and philosophy.
- Abstract(参考訳): 生物学的知能は、より少ない例から学ぶ人工知能(AI)よりもサンプリング効率が高い。
ここでは理由を答える。
データを考えると、データに完全に適合しているため、多くのポリシーが“正しい”ように思える。
しかし、実際にデータを発生させたのは、正しいポリシーの1つだけだった。
サンプル効率は、どれを識別する手段を必要とする。
以前の研究では、サンプル効率は弱政治最適化(WPO)によって最大化され、有限資源から見て、正しいと考えられるものをより弱く制限する政策が好まれていた。
生物学のサンプル効率は、WPOが優れていることを示している。
そこで我々は,生物系で観察される「マルチスケール・コンピテンシー・アーキテクチャ(MCA)」を,ネストした「老化促進層」の配列として定式化する。
低レベルのWPOは、より弱いポリシーを高いレベルで合成できることを示す。
私たちはこれを"マルチスケール因果学習(multiscale-causal-learning)"と呼び、これを、よりスケール可能でサンプル効率のよい、信頼性の高いAIを構築する方法として論じています。
さらに、低レベルの十分弱い政策は、より高いレベルの集団政策の前提条件である。
集団の「アイデンティティ」の上位レベルは、低レベルが不十分に弱いポリシーを使用すると失われる(例えば、g細胞は集団の情報構造から分離され、原始的な行動に戻る)。
これは生物学、機械学習、AI安全性、哲学に影響を及ぼす。
関連論文リスト
- Oracle-Efficient Reinforcement Learning for Max Value Ensembles [7.404901768256101]
大または無限の状態空間における強化学習(RL)は、理論上、実験的に困難である。
この作業では、$textitmax-following Policy$と競合することを目指しています。
我々の主な成果は、構成ポリシーのみにアクセスすると、最大フォローポリシーと競合する効率的なアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-27T01:08:23Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - When is Agnostic Reinforcement Learning Statistically Tractable? [76.1408672715773]
エンフスパンニング容量と呼ばれる新しい複雑性測度は、設定された$Pi$にのみ依存し、MDPダイナミクスとは独立である。
我々は、学習するためにスーパーポリノミカルな数のサンプルを必要とする制限付きスパンリング能力を持つポリシークラス$Pi$が存在することを示した。
これにより、生成的アクセスとオンラインアクセスモデルの間の学習可能性の驚くほどの分離が明らかになる。
論文 参考訳(メタデータ) (2023-10-09T19:40:54Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Chaos is a Ladder: A New Theoretical Understanding of Contrastive
Learning via Augmentation Overlap [64.60460828425502]
コントラスト学習の下流性能に関する新たな保証を提案する。
我々の新しい理論は、攻撃的なデータ強化の下で、異なるクラス内サンプルのサポートがより重なり合うという知見に基づいている。
本稿では、下流の精度とよく一致した教師なしモデル選択距離ARCを提案する。
論文 参考訳(メタデータ) (2022-03-25T05:36:26Z) - Divide-and-Conquer Hard-thresholding Rules in High-dimensional
Imbalanced Classification [1.0312968200748118]
高次元の線形判別分析(LDA)における不均衡クラスサイズの影響について検討した。
マイノリティ・クラスと呼ばれる1つのクラスのデータの不足により、LDAはマイノリティ・クラスを無視し、最大誤分類率を得ることを示す。
そこで本研究では,不等式化率の大きな差を低減させる分割・対数法に基づくハードコンカレンスルールの新たな構成法を提案する。
論文 参考訳(メタデータ) (2021-11-05T07:44:28Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z) - Hierarchically Decoupled Imitation for Morphological Transfer [95.19299356298876]
形態学的に単純なエージェントから学習情報を転送することで、より複雑なエージェントのサンプル効率を大幅に向上させることができることを示す。
まず、より単純なエージェントの低レベルを模倣するために複雑なエージェントの低レベルをインセンティブ化すると、ゼロショット高レベル転送が大幅に改善されることを示す。
第2に,高レベルのKL正規化学習が学習を安定させ,モデム崩壊を防ぐことを示す。
論文 参考訳(メタデータ) (2020-03-03T18:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。