Fugu-MT 論文翻訳(概要): Novelty Detection in Reinforcement Learning with World Models

論文の概要: Novelty Detection in Reinforcement Learning with World Models

arxiv url: http://arxiv.org/abs/2310.08731v2
Date: Fri, 22 Mar 2024 16:30:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 22:40:07.997473
Title: Novelty Detection in Reinforcement Learning with World Models
Title（参考訳）: 世界モデルを用いた強化学習における新規性検出
Authors: Geigh Zollicoffer, Kenneth Eaton, Jonathan Balloch, Julia Kim, Mark O. Riedl, Robert Wright,
Abstract要約: 世界モデルを用いた強化学習(RL)は近年大きな成功を収めている。しかし、突然世界力学や性質が変化した場合、エージェントの性能と信頼性は劇的に低下する。生成されたワールドモデルフレームワーク内での新規性検出の実装は、デプロイ時にエージェントを保護するための重要なタスクである。
参考スコア（独自算出の注目度）: 15.01731216883798
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) using world models has found significant recent successes. However, when a sudden change to world mechanics or properties occurs then agent performance and reliability can dramatically decline. We refer to the sudden change in visual properties or state transitions as novelties. Implementing novelty detection within generated world model frameworks is a crucial task for protecting the agent when deployed. In this paper, we propose straightforward bounding approaches to incorporate novelty detection into world model RL agents, by utilizing the misalignment of the world model's hallucinated states and the true observed states as an anomaly score. We provide effective approaches to detecting novelties in a distribution of transitions learned by an agent in a world model. Finally, we show the advantage of our work in a novel environment compared to traditional machine learning novelty detection methods as well as currently accepted RL focused novelty detection algorithms.
Abstract（参考訳）: 世界モデルを用いた強化学習(RL)は近年大きな成功を収めている。しかし、突然世界力学や性質が変化した場合、エージェントの性能と信頼性は劇的に低下する。視覚特性や状態遷移の急激な変化を、新しいものとして言及する。生成されたワールドモデルフレームワーク内での新規性検出の実装は、デプロイ時にエージェントを保護するための重要なタスクである。本稿では,世界模型の幻覚状態と真の観測状態の誤配を異常スコアとして利用することにより,新規性検出を世界モデルRLエージェントに組み込むための単純なバウンダリング手法を提案する。エージェントが世界モデルで学習した遷移の分布における新規性の検出に有効なアプローチを提案する。最後に、従来の機械学習ノベルティ検出法や、現在受け入れられているRLに着目したノベルティ検出アルゴリズムと比較して、新しい環境における我々の研究の利点を示す。

関連論文リスト

Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。私たちのアプローチの中心は、強化学習と因果推論を統合することです。提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文参考訳（メタデータ） (2025-11-10T12:45:52Z)
Bounding Distributional Shifts in World Modeling through Novelty Detection [15.354352209595973]
本研究では, 学習モデルが学習データ分布から逸脱しないように, 新規性検知器として変分オートエンコーダを用いる。提案手法は,データ効率の観点から最先端のソリューションを改良する。
論文参考訳（メタデータ） (2025-08-08T07:42:14Z)
Assessing Adaptive World Models in Machines with Novel Games [77.94506923046423]
我々は、迅速な適応は、環境の内部表現の効率的な構築と洗練と結びついていると論じる。人工知能における世界モデルの現在の理解と評価は依然として狭いままである。そこで本研究では,真で深みがあり,常にリフレッシュするノベルティを持つ,慎重に設計されたゲームスイートをベースとした,新たなベンチマークパラダイムを提案する。
論文参考訳（メタデータ） (2025-07-17T06:28:14Z)
Revisiting Multi-Agent World Modeling from a Diffusion-Inspired Perspective [54.77404771454794]
拡散モデルを用いたマルチエージェント強化学習(MARL)のためのフレキシブルで堅牢な世界モデルを開発する。本手法はDiffusion-Inspired Multi-Agent World Model (DIMA) を用いて,複数のマルチエージェント制御ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-27T09:11:38Z)
AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文参考訳（メタデータ） (2025-04-06T20:35:44Z)
Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [93.58897637077001]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文参考訳（メタデータ） (2025-03-11T13:50:22Z)
Learning Transformer-based World Models with Contrastive Predictive Coding [58.0159270859475]
変換器の表現能力を十分に活用するには,次の状態予測目標が不十分であることを示す。本稿では,行動条件のContrastive Predictive Codingを用いた世界モデルであるTWISTERを導入することで,世界モデル予測をより長い時間的地平線まで拡張することを提案する。 TWISTERは、Atari 100kベンチマークで162%の人間正規化平均スコアを達成し、ルックアヘッド検索を使用しない最先端のメソッドの中で、新しい記録を樹立した。
論文参考訳（メタデータ） (2025-03-06T13:18:37Z)
Generalize or Detect? Towards Robust Semantic Segmentation Under Multiple Distribution Shifts [56.57141696245328]
斬新なクラスとドメインの両方が存在するようなオープンワールドシナリオでは、理想的なセグメンテーションモデルは安全のために異常なクラスを検出する必要がある。既存の方法はドメインレベルとセマンティックレベルの分散シフトを区別するのに苦労することが多い。
論文参考訳（メタデータ） (2024-11-06T11:03:02Z)
Learning World Models for Unconstrained Goal Navigation [4.549550797148707]
本研究では,世界モデル学習のための目標指向探索アルゴリズムであるMUNを紹介する。 MUNは、リプレイバッファ内の任意のサブゴール状態間の状態遷移をモデル化することができる。その結果、MUNは世界モデルの信頼性を高め、政策の一般化能力を大幅に改善することを示した。
論文参考訳（メタデータ） (2024-11-03T01:35:06Z)
Open-World Reinforcement Learning over Long Short-Term Imagination [91.28998327423295]
LS-Imagineは、有限個の状態遷移ステップにおいて、イマジネーションの地平線を拡大する。我々の手法は、MineDojoの最先端技術よりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2024-10-04T17:17:30Z)
Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文参考訳（メタデータ） (2024-08-23T01:53:36Z)
Federated Continual Novel Class Learning [68.05835753892907]
本稿では,グローバルな新規クラス数を正確に推定できるグローバルアライメント学習フレームワークを提案する。 Galは新規クラスの性能を大幅に改善し、精度は5.1%から10.6%に向上した。 Galは、様々な主流のフェデレートラーニングアルゴリズムに新しいクラス発見と学習能力を持たせるのに効果的であることが示されている。
論文参考訳（メタデータ） (2023-12-21T00:31:54Z)
ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文参考訳（メタデータ） (2023-12-14T15:53:07Z)
Learning to Operate in Open Worlds by Adapting Planning Models [12.513121330508477]
プランニングエージェントは、ドメインモデルがもはや正確に世界を表すことができない新しい状況で振る舞うことができない。オープンな世界で活動するエージェントに対して,新規性の存在を検知し,ドメインモデルに効果的に適用するアプローチを提案する。
論文参考訳（メタデータ） (2023-03-24T21:04:16Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
Investigating the role of model-based learning in exploration and transfer [11.652741003589027]
本稿では,モデルベースエージェントの文脈における伝達学習について検討する。モデルベースアプローチは,移動学習におけるモデルフリーベースラインよりも優れていることがわかった。本研究の結果から,本質的な探索と環境モデルが組み合わさって,自己監督的かつ新たな報酬関数に一般化可能なエージェントの方向性を示すことが明らかとなった。
論文参考訳（メタデータ） (2023-02-08T11:49:58Z)
Neuro-Symbolic World Models for Adapting to Open World Novelty [9.707805250772129]
早急なノベルティ適応のための、エンドツーエンドのトレーニング可能なニューロシンボリックワールドモデルであるWorldClonerを紹介する。 WorldClonerは、プレノベルティ環境遷移の効率的なシンボル表現を学ぶ。 WorldClonerは、想像力に基づく適応を使用してポリシー学習プロセスを強化する。
論文参考訳（メタデータ） (2023-01-16T07:49:12Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。