論文の概要: Dynamic Knowledge Injection for AIXI Agents
- arxiv url: http://arxiv.org/abs/2312.16184v1
- Date: Mon, 18 Dec 2023 13:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-31 03:00:25.009334
- Title: Dynamic Knowledge Injection for AIXI Agents
- Title(参考訳): AIXIエージェントの動的知識注入
- Authors: Samuel Yang-Zhao, Kee Siong Ng, and Marcus Hutter
- Abstract要約: 我々は,動的に変化するモデルの集合に対して,ベイズ混合を正確に維持するDynamicHedgeAIXIという新しいエージェントを導入する。
接触ネットワークにおける疫病対策の実験結果は,エージェントの実用性を検証する。
- 参考スコア(独自算出の注目度): 17.4429135205363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior approximations of AIXI, a Bayesian optimality notion for general
reinforcement learning, can only approximate AIXI's Bayesian environment model
using an a-priori defined set of models. This is a fundamental source of
epistemic uncertainty for the agent in settings where the existence of
systematic bias in the predefined model class cannot be resolved by simply
collecting more data from the environment. We address this issue in the context
of Human-AI teaming by considering a setup where additional knowledge for the
agent in the form of new candidate models arrives from a human operator in an
online fashion. We introduce a new agent called DynamicHedgeAIXI that maintains
an exact Bayesian mixture over dynamically changing sets of models via a
time-adaptive prior constructed from a variant of the Hedge algorithm. The
DynamicHedgeAIXI agent is the richest direct approximation of AIXI known to
date and comes with good performance guarantees. Experimental results on
epidemic control on contact networks validates the agent's practical utility.
- Abstract(参考訳): 一般強化学習のためのベイズ最適性の概念である AIXI の事前近似は、a-priori の定義したモデルを用いて AIXI のベイズ環境モデルを近似することができる。
これは、事前定義されたモデルクラスにおける体系的バイアスの存在を、環境からより多くのデータを集めるだけで解決できない設定において、エージェントにとって、疫学的な不確実性の根源である。
我々は,新しい候補モデルによるエージェントの追加知識がオンラインの方法で人間のオペレータからもたらされる環境を考えることで,ヒューマン・aiチームという文脈でこの問題に対処した。
本稿では,ヘッジアルゴリズムの変種から構築した時間適応前処理により,モデル群を動的に変化させるベイズ混合を正確に維持するdynamichedgeaixiという新しいエージェントを提案する。
DynamicHedgeAIXIエージェントは、現在知られているAIXIの最もリッチな直接近似であり、優れたパフォーマンス保証を備えている。
コンタクトネットワークにおける流行制御の実験結果は,エージェントの実用性を検証する。
関連論文リスト
- Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - User Friendly and Adaptable Discriminative AI: Using the Lessons from
the Success of LLMs and Image Generation Models [0.6926105253992517]
我々は、ユーザが差別的なモデルで作業できる新しいシステムアーキテクチャを開発した。
我々のアプローチは、信頼、ユーザーフレンドリさ、そしてこれらの多目的だが伝統的な予測モデルの適応性を改善することに影響を及ぼす。
論文 参考訳(メタデータ) (2023-12-11T20:37:58Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Activate and Reject: Towards Safe Domain Generalization under Category
Shift [71.95548187205736]
カテゴリーシフト(DGCS)下における領域一般化の実践的問題について検討する。
未知のクラスサンプルを同時に検出し、ターゲットドメイン内の既知のクラスサンプルを分類することを目的としている。
従来のDGと比較すると,1)ソースクラスのみを用いたトレーニングにおいて,未知の概念を学習する方法,2)ソーストレーニングされたモデルを未知の環境に適応する方法,の2つの新しい課題に直面している。
論文 参考訳(メタデータ) (2023-10-07T07:53:12Z) - Training dynamic models using early exits for automatic speech
recognition on resource-constrained devices [15.879328412777008]
初期のアーキテクチャは、そのサイズとアーキテクチャを様々なレベルの計算リソースとASRパフォーマンス要求に適応できる動的モデルの開発を可能にする。
また,スクラッチからトレーニングした早期退避モデルは,エンコーダ層が少ない場合に性能を保ちつつ,単一退避モデルや事前学習モデルと比較してタスク精度が向上することを示した。
結果は、ASRモデルの早期アーキテクチャのトレーニングダイナミクスに関する洞察を与える。
論文 参考訳(メタデータ) (2023-09-18T07:45:16Z) - A Bayesian Approach to Robust Inverse Reinforcement Learning [57.48221522174114]
我々は、オフラインモデルに基づく逆強化学習(IRL)に対するベイズ的アプローチを考える。
提案フレームワークは,専門家の報酬関数と環境力学の主観的モデルとを同時推定することにより,既存のオフラインモデルベースIRLアプローチとは異なる。
本分析は, 専門家が環境の高精度なモデルを持つと考えられる場合, 評価政策が堅牢な性能を示すという新たな知見を提示する。
論文 参考訳(メタデータ) (2023-09-15T17:37:09Z) - Differential Assessment of Black-Box AI Agents [29.98710357871698]
従来知られていたモデルから逸脱したブラックボックスAIエージェントを差分評価する手法を提案する。
我々は,漂流エージェントの現在の挙動と初期モデルの知識の疎度な観察を利用して,アクティブなクエリポリシーを生成する。
経験的評価は、エージェントモデルをスクラッチから再学習するよりも、我々のアプローチの方がはるかに効率的であることを示している。
論文 参考訳(メタデータ) (2022-03-24T17:48:58Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z) - BODAME: Bilevel Optimization for Defense Against Model Extraction [10.877450596327407]
私たちは、サービスプロバイダのアタッカーを最も推測する前提の下でモデル抽出を防ぐために、逆の設定を検討します。
真のモデルの予測を用いてサロゲートモデルを定式化する。
勾配降下に基づくアルゴリズムを用いて学習されるより複雑なモデルに対して,トラクタブル変換とアルゴリズムを与える。
論文 参考訳(メタデータ) (2021-03-11T17:08:31Z) - Identification of Probability weighted ARX models with arbitrary domains [75.91002178647165]
PieceWise Affineモデルは、ハイブリッドシステムの他のクラスに対する普遍近似、局所線型性、同値性を保証する。
本研究では,任意の領域を持つ固有入力モデル(NPWARX)を用いたPieceWise Auto Regressiveの同定に着目する。
このアーキテクチャは、機械学習の分野で開発されたMixture of Expertの概念に従って考案された。
論文 参考訳(メタデータ) (2020-09-29T12:50:33Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。