論文の概要: Dynamic Knowledge Injection for AIXI Agents
- arxiv url: http://arxiv.org/abs/2312.16184v1
- Date: Mon, 18 Dec 2023 13:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-31 03:00:25.009334
- Title: Dynamic Knowledge Injection for AIXI Agents
- Title(参考訳): AIXIエージェントの動的知識注入
- Authors: Samuel Yang-Zhao, Kee Siong Ng, and Marcus Hutter
- Abstract要約: 我々は,動的に変化するモデルの集合に対して,ベイズ混合を正確に維持するDynamicHedgeAIXIという新しいエージェントを導入する。
接触ネットワークにおける疫病対策の実験結果は,エージェントの実用性を検証する。
- 参考スコア(独自算出の注目度): 17.4429135205363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior approximations of AIXI, a Bayesian optimality notion for general
reinforcement learning, can only approximate AIXI's Bayesian environment model
using an a-priori defined set of models. This is a fundamental source of
epistemic uncertainty for the agent in settings where the existence of
systematic bias in the predefined model class cannot be resolved by simply
collecting more data from the environment. We address this issue in the context
of Human-AI teaming by considering a setup where additional knowledge for the
agent in the form of new candidate models arrives from a human operator in an
online fashion. We introduce a new agent called DynamicHedgeAIXI that maintains
an exact Bayesian mixture over dynamically changing sets of models via a
time-adaptive prior constructed from a variant of the Hedge algorithm. The
DynamicHedgeAIXI agent is the richest direct approximation of AIXI known to
date and comes with good performance guarantees. Experimental results on
epidemic control on contact networks validates the agent's practical utility.
- Abstract(参考訳): 一般強化学習のためのベイズ最適性の概念である AIXI の事前近似は、a-priori の定義したモデルを用いて AIXI のベイズ環境モデルを近似することができる。
これは、事前定義されたモデルクラスにおける体系的バイアスの存在を、環境からより多くのデータを集めるだけで解決できない設定において、エージェントにとって、疫学的な不確実性の根源である。
我々は,新しい候補モデルによるエージェントの追加知識がオンラインの方法で人間のオペレータからもたらされる環境を考えることで,ヒューマン・aiチームという文脈でこの問題に対処した。
本稿では,ヘッジアルゴリズムの変種から構築した時間適応前処理により,モデル群を動的に変化させるベイズ混合を正確に維持するdynamichedgeaixiという新しいエージェントを提案する。
DynamicHedgeAIXIエージェントは、現在知られているAIXIの最もリッチな直接近似であり、優れたパフォーマンス保証を備えている。
コンタクトネットワークにおける流行制御の実験結果は,エージェントの実用性を検証する。
関連論文リスト
- Two-Timescale Model Caching and Resource Allocation for Edge-Enabled AI-Generated Content Services [55.0337199834612]
Generative AI(GenAI)は、カスタマイズされたパーソナライズされたAI生成コンテンツ(AIGC)サービスを可能にするトランスフォーメーション技術として登場した。
これらのサービスは数十億のパラメータを持つGenAIモデルの実行を必要とし、リソース制限の無線エッジに重大な障害を生じさせる。
我々は、AIGC品質とレイテンシメトリクスのトレードオフをバランスさせるために、AIGCサービスのジョイントモデルキャッシングとリソースアロケーションの定式化を導入する。
論文 参考訳(メタデータ) (2024-11-03T07:01:13Z) - Explainable AI for Enhancing Efficiency of DL-based Channel Estimation [1.0136215038345013]
人工知能に基づく意思決定のサポートは、将来の6Gネットワークの重要な要素である。
このようなアプリケーションでは、ブラックボックスモデルとしてAIを使用するのは危険で難しい。
本稿では,無線通信におけるチャネル推定を目的とした新しいXAI-CHESTフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-09T16:24:21Z) - Predicting AI Agent Behavior through Approximation of the Perron-Frobenius Operator [4.076790923976287]
我々は,AIエージェントを非線形力学系として扱い,確率論的観点からその統計的挙動を予測する。
エントロピー最小化問題としてペロン・フロベニウス作用素(PF)の近似を定式化する。
我々のデータ駆動手法は、エージェントの進化を予測するためにPF演算子を同時に近似し、AIエージェントの終端確率密度を予測する。
論文 参考訳(メタデータ) (2024-06-04T19:06:49Z) - Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Training dynamic models using early exits for automatic speech
recognition on resource-constrained devices [15.879328412777008]
初期のアーキテクチャは、そのサイズとアーキテクチャを様々なレベルの計算リソースとASRパフォーマンス要求に適応できる動的モデルの開発を可能にする。
また,スクラッチからトレーニングした早期退避モデルは,エンコーダ層が少ない場合に性能を保ちつつ,単一退避モデルや事前学習モデルと比較してタスク精度が向上することを示した。
結果は、ASRモデルの早期アーキテクチャのトレーニングダイナミクスに関する洞察を与える。
論文 参考訳(メタデータ) (2023-09-18T07:45:16Z) - Differential Assessment of Black-Box AI Agents [29.98710357871698]
従来知られていたモデルから逸脱したブラックボックスAIエージェントを差分評価する手法を提案する。
我々は,漂流エージェントの現在の挙動と初期モデルの知識の疎度な観察を利用して,アクティブなクエリポリシーを生成する。
経験的評価は、エージェントモデルをスクラッチから再学習するよりも、我々のアプローチの方がはるかに効率的であることを示している。
論文 参考訳(メタデータ) (2022-03-24T17:48:58Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z) - Identification of Probability weighted ARX models with arbitrary domains [75.91002178647165]
PieceWise Affineモデルは、ハイブリッドシステムの他のクラスに対する普遍近似、局所線型性、同値性を保証する。
本研究では,任意の領域を持つ固有入力モデル(NPWARX)を用いたPieceWise Auto Regressiveの同定に着目する。
このアーキテクチャは、機械学習の分野で開発されたMixture of Expertの概念に従って考案された。
論文 参考訳(メタデータ) (2020-09-29T12:50:33Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。