Fugu-MT 論文翻訳(概要): The Archimedean trap: Why traditional reinforcement learning will probably not yield AGI

論文の概要: The Archimedean trap: Why traditional reinforcement learning will probably not yield AGI

arxiv url: http://arxiv.org/abs/2002.10221v2
Date: Tue, 20 Oct 2020 03:39:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-31 22:53:53.345909
Title: The Archimedean trap: Why traditional reinforcement learning will probably not yield AGI
Title（参考訳）: アルキメデスの罠-伝統的な強化学習がAGIに勝てない理由
Authors: Samuel Allen Alexander
Abstract要約: 我々は、実数を用いて非アルキメデス構造を正確に測定することはできないことを示した。この障害を取り除くために従来の強化学習を変更する2つの方法を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: After generalizing the Archimedean property of real numbers in such a way as to make it adaptable to non-numeric structures, we demonstrate that the real numbers cannot be used to accurately measure non-Archimedean structures. We argue that, since an agent with Artificial General Intelligence (AGI) should have no problem engaging in tasks that inherently involve non-Archimedean rewards, and since traditional reinforcement learning rewards are real numbers, therefore traditional reinforcement learning probably will not lead to AGI. We indicate two possible ways traditional reinforcement learning could be altered to remove this roadblock.
Abstract（参考訳）: 実数のアルキメデス的性質を非数値構造に適応させるような方法で一般化した後、実数は非アルキメデス的構造を正確に測定することはできないことを示した。我々は,人工知能(AGI)のエージェントは,非アルキメデスの報酬に本質的に関与するタスクに問題なく関与すべきであり,従来の強化学習報酬は実数であるため,従来の強化学習がAGIに結びつくことはないと論じる。この障害を取り除くために,従来の強化学習を変更できる方法が2つある。

関連論文リスト

General Reasoning Requires Learning to Reason from the Get-go [19.90997698310839]
大規模言語モデル(LLM)は、実世界の素晴らしいユーティリティを実証している。しかし、適応的かつ堅牢に推論できる能力は、脆弱なままだ。我々は3つの重要な方向から知識と推論を解き放つことを提案する。
論文参考訳（メタデータ） (2025-02-26T18:51:12Z)
Beyond Interpolation: Extrapolative Reasoning with Reinforcement Learning and Graph Neural Networks [18.982541044390384]
本研究では, アーキテクチャの帰納バイアス, 異なる報酬システム, 逐次推論を実現する上での反復モデリングの役割に焦点をあてる。これらの要素が、ますます複雑なパズルに対する外挿の成功にどのように貢献するかを示す。
論文参考訳（メタデータ） (2025-02-06T08:07:35Z)
Formal Mathematical Reasoning: A New Frontier in AI [60.26950681543385]
我々は公式な数学的推論を提唱し、AI4Mathを次のレベルに進めるには不可欠であると主張している。既存の進捗を要約し、オープンな課題について議論し、将来の成功を測るための重要なマイルストーンを想定します。
論文参考訳（メタデータ） (2024-12-20T17:19:24Z)
Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文参考訳（メタデータ） (2024-11-23T19:10:32Z)
Beyond Scaleup: Knowledge-aware Parsimony Learning from Deep Networks [47.6830995661091]
トレーニングデータセット、学習可能なパラメータ、計算能力のブルートフォーススケールアップは、より堅牢な学習モデルを開発するための一般的な戦略となっている。本稿では、より単純なモデルでより大きな可能性を実現するために、同種の方法でこの問題に対処しようと試みる。鍵となるのは、純粋にスケールアップに頼るのではなく、記号、論理、公式といったドメイン固有の知識を使ってモデルを駆動することだ。
論文参考訳（メタデータ） (2024-06-29T15:52:37Z)
Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文参考訳（メタデータ） (2023-12-22T17:57:57Z)
Hierarchical Empowerment: Towards Tractable Empowerment-Based Skill Learning [65.41865750258775]
汎用エージェントは、大量のスキルのレパートリーを必要とする。我々は、コンピューティングのエンパワーメントをより魅力的にする新しいフレームワーク、階層エンパワーメントを導入します。一般的なアリナビゲーション領域では、我々の4つのレベルエージェントは、以前の作業よりも2桁大きい表面積をカバーするスキルを学ぶことができる。
論文参考訳（メタデータ） (2023-07-06T02:27:05Z)
The Alignment Problem from a Deep Learning Perspective [3.9772843346304763]
我々は、それを防ぐための十分な努力がなければ、AIGは人間の利益と矛盾する目標を追求することを学ぶことができると論じる。現代の最も有能なモデルのように訓練された場合、AGIはより高い報酬を受け取るために欺く行為を学ぶことができる。我々は、不整合AGIの展開が、世界における人類のコントロールを不可逆的に損なう可能性について、簡単に概説する。
論文参考訳（メタデータ） (2022-08-30T02:12:47Z)
Hierarchical Kickstarting for Skill Transfer in Reinforcement Learning [27.69559938165733]
実践とホーミングのスキルは、人間の学習の基本的な要素だが、人工エージェントは、それらを実行するために特別に訓練されることはめったにない。複雑な環境下での強化学習(RL)エージェントの訓練に、どのようにスキルを組み込むことができるかを検討する。本実験により, 複雑な問題に対するエージェントの性能向上に寄与することが示唆された。
論文参考訳（メタデータ） (2022-07-23T19:23:29Z)
The rise of the lottery heroes: why zero-shot pruning is hard [3.1473798197405944]
ディープラーニング最適化の最近の進歩は、モデルのトレーニングを成功させるためには、パラメータのサブセットが本当に必要であることを示している。トレーニング可能なサブネットワークを見つけるのは通常、コストがかかるプロセスです。ディープラーニングモデルにおける学習されたサブグラフ構造は、トレーニング時に見つけることができるか?
論文参考訳（メタデータ） (2022-02-24T22:49:36Z)
ArT: All-round Thinker for Unsupervised Commonsense Question-Answering [54.068032948300655]
本稿では,知識生成における関連性を完全に取り除き,オールラウンド思考者(ArT)のアプローチを提案する。我々は、COPA、SocialIQA、SCTの3つの共通センスQAベンチマークで評価した。
論文参考訳（メタデータ） (2021-12-26T18:06:44Z)
Fact-driven Logical Reasoning for Machine Reading Comprehension [82.58857437343974]
私たちは、常識と一時的な知識のヒントの両方を階層的にカバーする動機があります。具体的には,文の背骨成分を抽出し,知識単位の一般的な定式化を提案する。次に、事実単位の上にスーパーグラフを構築し、文レベル(事実群間の関係)と実体レベルの相互作用の利点を享受する。
論文参考訳（メタデータ） (2021-05-21T13:11:13Z)
Neural Recursive Belief States in Multi-Agent Reinforcement Learning [10.593726284820153]
人間は容易に仲間の持つ知識についての信念を形成し、信念を利用して意思決定を知らせる。深層生成モデルを用いてこれらの信念構造を近似するスケーラブルな手法を提案する。我々のエージェントは、共通のトレーニングパラダイムを用いて、モデルフリーのベースラインを同等の表現能力で上回る信念モデルで訓練した。
論文参考訳（メタデータ） (2021-02-03T20:10:23Z)
Emergent Real-World Robotic Skills via Unsupervised Off-Policy Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文参考訳（メタデータ） (2020-04-27T17:38:53Z)
Disturbance-immune Weight Sharing for Neural Architecture Search [96.93812980299428]
本稿では,モデル更新のための乱れ免疫更新戦略を提案する。我々は,パフォーマンス障害リスクを軽減するための戦略の有効性を理論的に分析する。
論文参考訳（メタデータ） (2020-03-29T17:54:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。