Fugu-MT 論文翻訳(概要): Zero-Shot Reinforcement Learning Under Partial Observability

論文の概要: Zero-Shot Reinforcement Learning Under Partial Observability

arxiv url: http://arxiv.org/abs/2506.15446v1
Date: Wed, 18 Jun 2025 13:18:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-19 19:35:51.671208
Title: Zero-Shot Reinforcement Learning Under Partial Observability
Title（参考訳）: 部分観測可能性下におけるゼロショット強化学習
Authors: Scott Jeen, Tom Bewley, Jonathan M. Cullen,
Abstract要約: 本研究では, 標準ゼロショット強化学習法が部分的に観測可能である場合, 劣化することを示す。我々は、状態、報酬、動的変化が部分的に観察される領域において、メモリベースのゼロショットRL法を評価する。
参考スコア（独自算出の注目度）: 5.079602839359521
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work has shown that, under certain assumptions, zero-shot reinforcement learning (RL) methods can generalise to any unseen task in an environment after reward-free pre-training. Access to Markov states is one such assumption, yet, in many real-world applications, the Markov state is only partially observable. Here, we explore how the performance of standard zero-shot RL methods degrades when subjected to partially observability, and show that, as in single-task RL, memory-based architectures are an effective remedy. We evaluate our memory-based zero-shot RL methods in domains where the states, rewards and a change in dynamics are partially observed, and show improved performance over memory-free baselines. Our code is open-sourced via: https://enjeeneer.io/projects/bfms-with-memory/.
Abstract（参考訳）: 近年の研究では、特定の仮定の下では、ゼロショット強化学習(RL)法は、報酬なし事前学習後の環境において、見知らぬタスクに一般化可能であることが示されている。マルコフ状態へのアクセスはそのような仮定の1つであるが、多くの実世界の応用において、マルコフ状態は部分的にしか観測できない。本稿では,標準ゼロショットRL法の性能が部分的に観測可能である場合にどのように低下するかを考察し,メモリベースアーキテクチャが有効であることを示す。状態,報酬,動的変化が部分的に観察される領域におけるメモリベースゼロショットRL法の評価を行い,メモリフリーベースラインよりも性能が向上したことを示す。私たちのコードは、https://enjeeneer.io/projects/bfms-with-Memory/.org経由でオープンソース化されています。

関連論文リスト

Benchmarking Partial Observability in Reinforcement Learning with a Suite of Memory-Improvable Domains [11.791215135603963]
部分観測可能性の緩和は、一般的な強化学習アルゴリズムにとって難しい課題である。部分可観測性に対処するほとんどのアルゴリズムは、単純な状態エイリアスを持つベンチマークでのみ評価される。我々は、部分的に可観測性の下での実証的な強化学習のためのベストプラクティスガイドラインと、オープンソースのライブラリPOBAXを紹介します。
論文参考訳（メタデータ） (2025-07-31T16:11:37Z)
Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.36978389831446]
我々はベイズ適応RLフレームワークにおける反射探査を再放送する。我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文参考訳（メタデータ） (2025-05-26T22:51:00Z)
iQRL -- Implicitly Quantized Representations for Sample-efficient Reinforcement Learning [24.684363928059113]
自己教師付き潜在状態整合性損失のみを用いた効率的な表現学習法を提案する。我々は,潜在表現を定量化することにより,高い性能を実現し,表現崩壊を防止する。 iQRL:暗黙的に量子化強化学習(Quantized Reinforcement Learning)という手法は,任意のモデルフリーなRLアルゴリズムと互換性がある。
論文参考訳（メタデータ） (2024-06-04T18:15:44Z)
Closing the Gap between TD Learning and Supervised Learning -- A Generalisation Point of View [51.30152184507165]
いくつかの強化学習(RL)アルゴリズムは、トレーニング中に見たことのないタスクを解決するために、経験の断片を縫い合わせることができる。このoft-sought特性は、動的プログラミングに基づくRL法と教師あり学習(SL)に基づくRL法とを区別する数少ない方法の1つである。これらの方法がこの重要な縫合特性を許すかどうかは不明である。
論文参考訳（メタデータ） (2024-01-20T14:23:25Z)
Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。 CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文参考訳（メタデータ） (2023-12-22T07:42:00Z)
Zero-Shot Reinforcement Learning from Low Quality Data [5.079602839359521]
ゼロショット強化学習(Zero-shot reinforcement learning, RL)は、オフラインで報酬なしの事前トレーニングフェーズの後に、環境内であらゆるタスクを実行できるエージェントを提供することを約束する。そこで本研究では、ゼロショットRL法の性能が、小さな同種データセットでトレーニングした場合にどのように低下するかを考察する。本稿では,単一タスクのオフラインRLアルゴリズムの高性能な特徴である保守性に着想を得た修正を提案する。
論文参考訳（メタデータ） (2023-09-26T18:20:20Z)
Memory Population in Continual Learning via Outlier Elimination [25.511380924335207]
破滅的な忘れは、新しいタスクを学ぶ際に学習したタスクを忘れる現象であり、継続的な学習アルゴリズムを開発する上で大きなハードルとなる。忘れを緩和する一般的な方法は、新しいタスクのトレーニングで使用する前に学習したタスク例のサブセットを格納するメモリバッファを使用することである。本稿では,ラベル同種サブポピュレーションからサンプルを選択することにより,メモリバッファ内の外れ値の識別と除去を行うメモリ・アウトレイラ除去法(MOE)を提案する。
論文参考訳（メタデータ） (2022-07-04T00:09:33Z)
Value-Consistent Representation Learning for Data-Efficient Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文参考訳（メタデータ） (2022-06-25T03:02:25Z)
Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文参考訳（メタデータ） (2022-06-15T14:34:15Z)
Reinforcement Learning using Guided Observability [26.307025803058714]
強化学習を部分的な可観測性に対処するためのシンプルで効率的なアプローチを提案します。トレーニングプロセス中の完全な可観測性から部分可観測性へのスムーズな移行は、高いパフォーマンスポリシをもたらします。離散部分可観測性Markov決定プロセス(POMDP)ベンチマーク問題および連続部分可観測性MuJoCoおよびOpenAIジムタスクにおける包括的な評価は、PO-GRLがパフォーマンスを向上させることを示しています。
論文参考訳（メタデータ） (2021-04-22T10:47:35Z)
CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文参考訳（メタデータ） (2021-01-18T12:46:24Z)
The act of remembering: a study in partially observable reinforcement learning [24.945756871291348]
強化学習(Reinforcement Learning, RL)エージェントは、通常、アクションを選択するときの最後の観察のみを考慮するメモリレスポリシーを学ぶ。エージェントに外部メモリと追加アクションを提供して、もし何かあれば、メモリに書き込まれるものを制御する。我々の新しいメモリ形態は、よく確立された部分的に観測可能な領域におけるバイナリとLSTMベースのメモリより優れている。
論文参考訳（メタデータ） (2020-10-05T02:56:43Z)
Remembering for the Right Reasons: Explanations Reduce Catastrophic Forgetting [100.75479161884935]
我々は、RRR(Remembering for the Right Reasons)と呼ばれる新しいトレーニングパラダイムを提案する。 RRRは、各例の視覚モデル説明をバッファに格納し、モデルが予測に「正しい理由」を持つことを保証する。メモリや正規化ベースのアプローチでRRRを容易に追加できることを示し、その結果、忘れを少なくする。
論文参考訳（メタデータ） (2020-10-04T10:05:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。