Fugu-MT 論文翻訳(概要): A Model-Free Universal AI

論文の概要: A Model-Free Universal AI

arxiv url: http://arxiv.org/abs/2602.23242v1
Date: Thu, 26 Feb 2026 17:21:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.811762
Title: A Model-Free Universal AI
Title（参考訳）: モデルフリーユニバーサルAI
Authors: Yegon Kim, Juho Lee,
Abstract要約: 一般的な強化学習では、AIXIを含むすべての確立された最適エージェントは、モデルベースであり、環境モデルを明示的に保守し、使用する。本稿では,Q-Induction(AIQI)を用いたUniversal AIについて紹介する。
参考スコア（独自算出の注目度）: 14.915295611754132
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In general reinforcement learning, all established optimal agents, including AIXI, are model-based, explicitly maintaining and using environment models. This paper introduces Universal AI with Q-Induction (AIQI), the first model-free agent proven to be asymptotically $\varepsilon$-optimal in general RL. AIQI performs universal induction over distributional action-value functions, instead of policies or environments like previous works. Under a grain of truth condition, we prove that AIQI is strong asymptotically $\varepsilon$-optimal and asymptotically $\varepsilon$-Bayes-optimal. Our results significantly expand the diversity of known universal agents.
Abstract（参考訳）: 一般的な強化学習では、AIXIを含むすべての確立された最適エージェントは、モデルベースであり、環境モデルを明示的に保守し、使用する。本稿では,Q-Induction(AIQI)を用いたUniversal AIを紹介する。 AIQIは、従来のようなポリシーや環境の代わりに、分散アクション値関数に対して普遍的な帰納化を行う。真の条件の下では、AIQI は強い漸近的に $\varepsilon$-optimal であり、漸近的に $\varepsilon$-Bayes-optimal であることを示す。我々の結果は、既知の普遍的エージェントの多様性を著しく拡大する。

関連論文リスト

Pro-AI Bias in Large Language Models [17.86909605285373]
大規模言語モデル(LLM)は、複数のドメインにわたる意思決定サポートにますます採用されている。これらのモデルが人工知能(AI)自体に有利な体系的優先バイアスを示すかどうかを検討する。
論文参考訳（メタデータ） (2026-01-20T09:03:57Z)
Embedded Universal Predictive Intelligence: a coherent framework for multi-agent learning [57.23345786304694]
予測学習のための枠組みと自己予測を中心とした組込みエージェントを導入する。マルチエージェント設定では、エージェントが類似したアルゴリズムを実行している他のエージェントについて推論することができる。我々は、AIXIの理論を拡張し、Solomonoffから始まる普遍的なインテリジェントな埋め込みエージェントについて研究する。
論文参考訳（メタデータ） (2025-11-27T08:46:48Z)
UCD: Unconditional Discriminator Promotes Nash Equilibrium in GANs [52.32463892292128]
特にGAN(Generative Adversarial Network)と拡散モデル蒸留における一段階生成の鍵となる。本研究では,GANトレーニングにおけるナッシュ均衡の程度を定量的に分析し,D$の条件を入力した冗長なショートカットは有意義な知識抽出を無効にする,と結論付けた。条件注入なしでより包括的で堅牢な特徴を抽出するために$D$を強制する無条件判別器(UCD)を提案する。
論文参考訳（メタデータ） (2025-10-01T07:58:33Z)
SEEA-R1: Tree-Structured Reinforcement Fine-Tuning for Self-Evolving Embodied Agents [58.174206358223415]
自己進化型エボダイドエージェント(SeEA-R1)は、自己進化型エボダイドエージェント用に設計された最初の強化微細調整フレームワークである。本研究は,SEEA-R1が自律適応と報酬駆動型自己進化をサポートすることを示す。
論文参考訳（メタデータ） (2025-06-26T18:00:07Z)
Universal AI maximizes Variational Empowerment [0.0]
我々は、自己学習エージェントであるSelf-AIXIの既存のフレームワークの上に構築する。ユニバーサルAIエージェントのパワーサーキング傾向は、将来の報酬を確保するための手段戦略として説明できる、と我々は主張する。私たちの主な貢献は、これらのモチベーションがAIエージェントを体系的に高オプション状態を探し、維持する方法を示すことです。
論文参考訳（メタデータ） (2025-02-20T02:58:44Z)
Asymptotic Statistical Analysis of $f$-divergence GAN [13.587087960403199]
GAN(Generative Adversarial Networks)は、データ生成において大きな成功を収めている。 GANの一般$f$-divergence定式化の統計的挙動を考察する。得られた推定方法は、Adversarial Gradient Estimation (AGE)と呼ばれる。
論文参考訳（メタデータ） (2022-09-14T18:08:37Z)
KL-Entropy-Regularized RL with a Generative Model is Minimax Optimal [70.15267479220691]
モデル強化学習のサンプル複雑性を,生成的分散自由モデルを用いて検討・解析する。我々の分析は、$varepsilon$が十分小さい場合、$varepsilon$-optimal Policyを見つけるのが、ほぼ最小の最適化であることを示している。
論文参考訳（メタデータ） (2022-05-27T19:39:24Z)
On the properties of the asymptotic incompatibility measure in multiparameter quantum estimation [62.997667081978825]
Incompatibility (AI) は、ホレヴォとSLDスカラー境界の差を定量化する尺度である。最大AI量は、$mu_sf min = 1/(d-1)$より大きい純度で特徴づけられる量子統計モデルに対してのみ達成可能であることを示す。
論文参考訳（メタデータ） (2021-07-28T15:16:37Z)
ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。 ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文参考訳（メタデータ） (2021-06-10T04:32:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。