Fugu-MT 論文翻訳(概要): Dynamic Knowledge Injection for AIXI Agents

論文の概要: Dynamic Knowledge Injection for AIXI Agents

arxiv url: http://arxiv.org/abs/2312.16184v1
Date: Mon, 18 Dec 2023 13:34:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-31 03:00:25.009334
Title: Dynamic Knowledge Injection for AIXI Agents
Title（参考訳）: AIXIエージェントの動的知識注入
Authors: Samuel Yang-Zhao, Kee Siong Ng, and Marcus Hutter
Abstract要約: 我々は,動的に変化するモデルの集合に対して,ベイズ混合を正確に維持するDynamicHedgeAIXIという新しいエージェントを導入する。接触ネットワークにおける疫病対策の実験結果は,エージェントの実用性を検証する。
参考スコア（独自算出の注目度）: 17.4429135205363
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prior approximations of AIXI, a Bayesian optimality notion for general reinforcement learning, can only approximate AIXI's Bayesian environment model using an a-priori defined set of models. This is a fundamental source of epistemic uncertainty for the agent in settings where the existence of systematic bias in the predefined model class cannot be resolved by simply collecting more data from the environment. We address this issue in the context of Human-AI teaming by considering a setup where additional knowledge for the agent in the form of new candidate models arrives from a human operator in an online fashion. We introduce a new agent called DynamicHedgeAIXI that maintains an exact Bayesian mixture over dynamically changing sets of models via a time-adaptive prior constructed from a variant of the Hedge algorithm. The DynamicHedgeAIXI agent is the richest direct approximation of AIXI known to date and comes with good performance guarantees. Experimental results on epidemic control on contact networks validates the agent's practical utility.
Abstract（参考訳）: 一般強化学習のためのベイズ最適性の概念である AIXI の事前近似は、a-priori の定義したモデルを用いて AIXI のベイズ環境モデルを近似することができる。これは、事前定義されたモデルクラスにおける体系的バイアスの存在を、環境からより多くのデータを集めるだけで解決できない設定において、エージェントにとって、疫学的な不確実性の根源である。我々は,新しい候補モデルによるエージェントの追加知識がオンラインの方法で人間のオペレータからもたらされる環境を考えることで,ヒューマン・aiチームという文脈でこの問題に対処した。本稿では,ヘッジアルゴリズムの変種から構築した時間適応前処理により,モデル群を動的に変化させるベイズ混合を正確に維持するdynamichedgeaixiという新しいエージェントを提案する。 DynamicHedgeAIXIエージェントは、現在知られているAIXIの最もリッチな直接近似であり、優れたパフォーマンス保証を備えている。コンタクトネットワークにおける流行制御の実験結果は,エージェントの実用性を検証する。

関連論文リスト

AI-NativeBench: An Open-Source White-Box Agentic Benchmark Suite for AI-Native Systems [52.65695508605237]
我々は、Model Context Protocol(MCP)とAgent-to-Agent(A2A)標準に基づいて、アプリケーション中心でホワイトボックスのAI-NativeベンチマークスイートであるAI-NativeBenchを紹介する。エージェントスパンを分散トレース内の第一級市民として扱うことにより,本手法は,単純な機能以上の工学的特性の粒度解析を可能にする。この研究は、モデル能力の測定から信頼性の高いAI-Nativeシステムへの移行を導く最初の体系的な証拠を提供する。
論文参考訳（メタデータ） (2026-01-14T11:32:07Z)
From Agentification to Self-Evolving Agentic AI for Wireless Networks: Concepts, Approaches, and Future Research Directions [70.72279728350763]
自律進化型エージェント人工知能(AI)は、将来の無線システムに新しいパラダイムを提供する。静的AIモデルとは異なり、自己進化エージェントは、モデルやツールを更新し、環境ダイナミクスに対応する自律進化サイクルを組み込む。本稿では,自己進化型エージェントAIの概要を概説し,その階層化アーキテクチャ,ライフサイクル,鍵となる技術について述べる。
論文参考訳（メタデータ） (2025-10-07T05:45:25Z)
STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。 MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2025-08-26T08:47:58Z)
Orthogonal Projection Subspace to Aggregate Online Prior-knowledge for Continual Test-time Adaptation [67.80294336559574]
連続テスト時間適応(CTTA)は、新しいシナリオに継続的に適応するために、ソース事前訓練されたモデルを必要とするタスクである。我々は、OoPkと呼ばれるオンライン事前知識を集約する新しいパイプラインOrthogonal Projection Subspaceを提案する。
論文参考訳（メタデータ） (2025-06-23T18:17:39Z)
Learning Individual Behavior in Agent-Based Models with Graph Diffusion Networks [2.749593964424624]
エージェントベースモデル(ABM)は、複雑なシステムの創発的特性を研究するための強力なツールである。生成したデータを観測することで,任意のABMの識別可能なサロゲートを学習するための新しいフレームワークを提案する。本手法は,拡散モデルとグラフニューラルネットワークを組み合わせ,エージェントの相互作用をモデル化する。
論文参考訳（メタデータ） (2025-05-27T16:55:56Z)
Confidence-Regulated Generative Diffusion Models for Reliable AI Agent Migration in Vehicular Metaverses [55.70043755630583]
車両用AIエージェントには、環境認識、意思決定、行動実行能力が与えられている。本稿では、信頼性の高い車両用AIエージェントマイグレーションフレームワークを提案し、信頼性の高い動的マイグレーションと効率的なリソーススケジューリングを実現する。我々は,AIエージェントのマイグレーション決定を効率的に生成する信頼性制御型生成拡散モデル(CGDM)を開発した。
論文参考訳（メタデータ） (2025-05-19T05:04:48Z)
Generalising from Self-Produced Data: Model Training Beyond Human Constraints [0.0]
本稿では,AIモデルが新たな知識を自律的に生成し,検証する新しい枠組みを提案する。このアプローチの中心は、人間のベンチマークを必要とせずに学習をガイドする、無制限で使い捨ての数値報酬である。
論文参考訳（メタデータ） (2025-04-07T03:48:02Z)
A hierarchical approach for assessing the vulnerability of tree-based classification models to membership inference attack [0.552480439325792]
機械学習モデルは、トレーニングデータの秘密プロパティを不注意に公開し、メンバシップ推論攻撃(MIA)に対して脆弱になる。本稿では、脆弱な木に基づくモデルを効率的に同定するための2つの新しい補完的アプローチを提案する。
論文参考訳（メタデータ） (2025-02-13T15:16:53Z)
Two-Timescale Model Caching and Resource Allocation for Edge-Enabled AI-Generated Content Services [55.0337199834612]
Generative AI(GenAI)は、カスタマイズされたパーソナライズされたAI生成コンテンツ(AIGC)サービスを可能にするトランスフォーメーション技術として登場した。これらのサービスは数十億のパラメータを持つGenAIモデルの実行を必要とし、リソース制限の無線エッジに重大な障害を生じさせる。我々は、AIGC品質とレイテンシメトリクスのトレードオフをバランスさせるために、AIGCサービスのジョイントモデルキャッシングとリソースアロケーションの定式化を導入する。
論文参考訳（メタデータ） (2024-11-03T07:01:13Z)
Explainable AI for Enhancing Efficiency of DL-based Channel Estimation [1.0136215038345013]
人工知能に基づく意思決定のサポートは、将来の6Gネットワークの重要な要素である。このようなアプリケーションでは、ブラックボックスモデルとしてAIを使用するのは危険で難しい。本稿では,無線通信におけるチャネル推定を目的とした新しいXAI-CHESTフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-09T16:24:21Z)
Predicting AI Agent Behavior through Approximation of the Perron-Frobenius Operator [4.076790923976287]
我々は,AIエージェントを非線形力学系として扱い,確率論的観点からその統計的挙動を予測する。エントロピー最小化問題としてペロン・フロベニウス作用素(PF)の近似を定式化する。我々のデータ駆動手法は、エージェントの進化を予測するためにPF演算子を同時に近似し、AIエージェントの終端確率密度を予測する。
論文参考訳（メタデータ） (2024-06-04T19:06:49Z)
Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。 XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文参考訳（メタデータ） (2024-05-31T17:39:06Z)
Deep autoregressive density nets vs neural ensembles for model-based offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。 D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文参考訳（メタデータ） (2024-02-05T10:18:15Z)
STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。 Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文参考訳（メタデータ） (2023-10-14T16:42:02Z)
Training dynamic models using early exits for automatic speech recognition on resource-constrained devices [15.879328412777008]
初期のアーキテクチャは、そのサイズとアーキテクチャを様々なレベルの計算リソースとASRパフォーマンス要求に適応できる動的モデルの開発を可能にする。また,スクラッチからトレーニングした早期退避モデルは,エンコーダ層が少ない場合に性能を保ちつつ,単一退避モデルや事前学習モデルと比較してタスク精度が向上することを示した。結果は、ASRモデルの早期アーキテクチャのトレーニングダイナミクスに関する洞察を与える。
論文参考訳（メタデータ） (2023-09-18T07:45:16Z)
Differential Assessment of Black-Box AI Agents [29.98710357871698]
従来知られていたモデルから逸脱したブラックボックスAIエージェントを差分評価する手法を提案する。我々は,漂流エージェントの現在の挙動と初期モデルの知識の疎度な観察を利用して,アクティブなクエリポリシーを生成する。経験的評価は、エージェントモデルをスクラッチから再学習するよりも、我々のアプローチの方がはるかに効率的であることを示している。
論文参考訳（メタデータ） (2022-03-24T17:48:58Z)
Unified Instance and Knowledge Alignment Pretraining for Aspect-based Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文参考訳（メタデータ） (2021-10-26T04:03:45Z)
Identification of Probability weighted ARX models with arbitrary domains [75.91002178647165]
PieceWise Affineモデルは、ハイブリッドシステムの他のクラスに対する普遍近似、局所線型性、同値性を保証する。本研究では,任意の領域を持つ固有入力モデル(NPWARX)を用いたPieceWise Auto Regressiveの同定に着目する。このアーキテクチャは、機械学習の分野で開発されたMixture of Expertの概念に従って考案された。
論文参考訳（メタデータ） (2020-09-29T12:50:33Z)
Model-based Reinforcement Learning for Decentralized Multiagent Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文参考訳（メタデータ） (2020-03-15T19:49:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。