Fugu-MT 論文翻訳(概要): Sparse Masked Attention Policies for Reliable Generalization

論文の概要: Sparse Masked Attention Policies for Reliable Generalization

arxiv url: http://arxiv.org/abs/2602.19956v1
Date: Mon, 23 Feb 2026 15:23:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.879506
Title: Sparse Masked Attention Policies for Reliable Generalization
Title（参考訳）: Sparse Masked Attention Policies for Reliable Generalization
Authors: Caroline Horsch, Laurens Engwegen, Max Weltevrede, Matthijs T. J. Spaan, Wendelin Böhmer,
Abstract要約: 縮小情報表現を抽出する関数は、目に見えない観察において、未知の一般化能力を有することを示す。我々は、注意に基づくポリシーネットワーク内の注意重みを操作・統合する学習されたマスキング機能を用いて、これを実現する。
参考スコア（独自算出の注目度）: 6.169677791273695
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In reinforcement learning, abstraction methods that remove unnecessary information from the observation are commonly used to learn policies which generalize better to unseen tasks. However, these methods often overlook a crucial weakness: the function which extracts the reduced-information representation has unknown generalization ability in unseen observations. In this paper, we address this problem by presenting an information removal method which more reliably generalizes to new states. We accomplish this by using a learned masking function which operates on, and is integrated with, the attention weights within an attention-based policy network. We demonstrate that our method significantly improves policy generalization to unseen tasks in the Procgen benchmark compared to standard PPO and masking approaches.
Abstract（参考訳）: 強化学習では、不要な情報を観測から取り除く抽象的手法が、目に見えないタスクを一般化するポリシーの学習に一般的に用いられる。しかし、これらの手法はしばしば重大な弱点を見落としている: 減少した情報表現を抽出する関数は、目に見えない観測において、一般化能力が不明である。本稿では,新しい状態をより確実に一般化する情報除去手法を提案することにより,この問題に対処する。我々は、注意に基づくポリシーネットワーク内の注意重みを運用し、統合した学習マスキング機能を使用することで、これを実現する。提案手法は,標準のPPOやマスキング手法と比較して,Procgenベンチマークの未確認タスクに対するポリシの一般化を著しく改善することを示す。

関連論文リスト

GraspLDP: Towards Generalizable Grasping Policy via Latent Diffusion [44.168491831527355]
本稿では,模倣学習を通じて学習した操作ポリシーの把握精度の向上と一般化に焦点を当てた。既存の把握のための模倣学習技術は、しばしば不正確な把握の実行、空間的一般化の制限、オブジェクトの一般化の不足に悩まされる。
論文参考訳（メタデータ） (2026-02-26T10:56:01Z)
Learning General Policies with Policy Gradient Methods [11.393603788068775]
特定のドメインの全インスタンスを一般化する証明可能な正しいポリシーは、メソッドを使って学習されている。この研究の目的は、これらの2つの研究スレッドをまとめて、(深い)強化学習アプローチが利用できる条件を照らすことである。従来およびディープラーニングアプローチから学んだ教訓を引き合いに出し、それらを便利な方法で拡張します。
論文参考訳（メタデータ） (2025-12-22T13:08:58Z)
Forget Less, Retain More: A Lightweight Regularizer for Rehearsal-Based Continual Learning [51.07663354001582]
ディープニューラルネットワークは破滅的な忘れ込みに悩まされ、新しいタスクのトレーニング後に以前のタスクのパフォーマンスが低下する。本稿では,メモリベースの手法と正規化手法の交わりに着目し,この問題に対処する新しいアプローチを提案する。我々は、メモリベース連続学習法において、情報最大化(IM)正則化と呼ばれる正規化戦略を定式化する。
論文参考訳（メタデータ） (2025-12-01T15:56:00Z)
Salience-Invariant Consistent Policy Learning for Generalization in Visual Reinforcement Learning [12.9372563969007]
見えないシナリオにポリシーを一般化することは、視覚的強化学習において重要な課題である。目に見えない環境では、不注意なピクセルがエージェントにタスク関連情報を含む表現を抽出させる可能性がある。ゼロショット一般化のための効率的なフレームワークであるSalience-Invariant Consistent Policy Learningアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-12T12:00:16Z)
Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文参考訳（メタデータ） (2024-02-05T00:48:56Z)
Look where you look! Saliency-guided Q-networks for visual RL tasks [0.0]
画像統計や背景要素の変更は、一般化を妨げる落とし穴である。 SGQN(Saliency-guided Q-networks)は、任意の値関数学習法と互換性のある視覚強化学習のための一般的な方法である。 SGQNは、Soft Actor-Criticエージェントの一般化能力を大幅に改善し、Deepmind Control Generalizationベンチマークで既存の最先端メソッドよりも優れている。
論文参考訳（メタデータ） (2022-09-16T08:28:38Z)
Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit Partial Observability [92.95794652625496]
総合化は強化学習システムの展開における中心的な課題である。限られた訓練条件から検査条件を特定できないように一般化することは、暗黙的な部分観察可能性をもたらすことを示す。我々は、RLにおける一般化の問題を、部分的に観察されたマルコフ決定過程の解法として再考した。
論文参考訳（メタデータ） (2021-07-13T17:59:25Z)
Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文参考訳（メタデータ） (2020-12-30T03:22:35Z)
Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文参考訳（メタデータ） (2020-02-26T23:00:27Z)
Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。実演なしで指導的学習を通じて効果的な政策を学べるか? 政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文参考訳（メタデータ） (2019-12-31T18:07:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。