Fugu-MT 論文翻訳(概要): Concurrent Credit Assignment for Data-efficient Reinforcement Learning

論文の概要: Concurrent Credit Assignment for Data-efficient Reinforcement Learning

arxiv url: http://arxiv.org/abs/2205.12020v1
Date: Tue, 24 May 2022 12:11:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-25 23:15:45.230741
Title: Concurrent Credit Assignment for Data-efficient Reinforcement Learning
Title（参考訳）: データ効率強化学習のための同時クレジットアサインメント
Authors: Emmanuel Dauc\'e
Abstract要約: 状態と行動空間を広くサンプリングする能力は、効果的な強化学習アルゴリズムを構築する上で重要な要素である。占有モデルは、探査が進むにつれて頻繁に更新される。その結果, サンプリングの有効性は有意に向上し, トレーニング時間を短縮し, より高いリターンが得られた。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The capability to widely sample the state and action spaces is a key ingredient toward building effective reinforcement learning algorithms. The variational optimization principles exposed in this paper emphasize the importance of an occupancy model to synthesizes the general distribution of the agent's environmental states over which it can act (defining a virtual ``territory''). The occupancy model is the subject of frequent updates as the exploration progresses and that new states are undisclosed during the course of the training. By making a uniform prior assumption, the resulting objective expresses a balance between two concurrent tendencies, namely the widening of the occupancy space and the maximization of the rewards, reminding of the classical exploration/exploitation trade-off. Implemented on an actor-critic off-policy on classic continuous action benchmarks, it is shown to provide significant increase in the sampling efficacy, that is reflected in a reduced training time and higher returns, in both the dense and the sparse rewards cases.
Abstract（参考訳）: 状態と動作空間を広くサンプルする能力は、効果的な強化学習アルゴリズムを構築するための重要な要素である。本稿では,エージェントが行動可能な環境状態の一般分布を合成するための占有モデルの重要性を強調した(仮想「領域」の定義)。居住モデルは、探索が進むにつれて頻繁な更新の対象となり、訓練中に新しい状態が開示されることはない。結果の目的は、均一な事前仮定を行うことで、2つの同時傾向、すなわち占有空間の拡大と報酬の最大化のバランスを表現し、古典的な探検・探検のトレードオフを思い出させる。従来の連続アクションベンチマークでアクタが批判するオフポリシーに基づいて実装され、集中度とスパース報酬の双方において、トレーニング時間とリターン率の低下に反映されるサンプリングの有効性が大幅に向上することが示されている。

関連論文リスト

Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文参考訳（メタデータ） (2025-06-10T12:59:14Z)
Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。 AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文参考訳（メタデータ） (2025-05-24T05:17:53Z)
On the Discrimination and Consistency for Exemplar-Free Class Incremental Learning [19.898602404329697]
Exemplar-free class incremental learning (EF-CIL) は非自明なタスクであり、新しいクラスでモデル能力を継続的に強化し、古いクラスの例を保存・再生することなく、学習した知識を維持しながら、新しいクラスでモデル能力を増強する必要がある。 CILのための新たな理論誘導フレームワークは、共有ネットワークのタスク固有モデルを訓練し、忘れるプレッシャーをタスクID予測にシフトさせる。 EF-CILでは、タスク間相互作用の欠如(例:例題のリプレイ)によりタスクID予測がより困難になる。
論文参考訳（メタデータ） (2025-01-26T08:50:33Z)
Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs [25.011675414622392]
本研究では,分配シフトに対する報酬モデルの一般化能力を高める新しい手法を提案する。我々は、ベースモデルの言語モデルヘッドを保持し、隠れた状態のテキスト生成機能を維持するために、テキスト生成損失のスイートを組み込む。実験結果から,導入した正規化手法が学習報酬モデルの精度を著しく向上することが示された。
論文参考訳（メタデータ） (2024-06-14T17:49:59Z)
Federated Class-Incremental Learning with Hierarchical Generative Prototypes [10.532838477096055]
Federated Learning (FL)は、複数のデバイス(クライアント)に分散した計算をすることで、ディープモデルのトレーニングを解き放つことを目的としている。提案手法は,学習可能なプロンプトを用いてトレーニング済みのバックボーンを効率よく微調整することにより,最終層のバイアスを抑える。提案手法は現状を著しく改善し, 平均精度は+7.8%向上した。
論文参考訳（メタデータ） (2024-06-04T16:12:27Z)
ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文参考訳（メタデータ） (2024-02-22T13:22:06Z)
TWINS: A Fine-Tuning Framework for Improved Transferability of Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。 TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文参考訳（メタデータ） (2023-03-20T14:12:55Z)
Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。 DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文参考訳（メタデータ） (2022-10-14T08:31:45Z)
Domain Adaptation with Adversarial Training on Penultimate Activations [82.9977759320565]
教師なし領域適応(Unsupervised Domain Adaptation, UDA)の重要な目的は、ラベルなし対象データに対するモデル予測の信頼性を高めることである。我々は,この戦略が,入力画像や中間特徴に対する敵対的訓練よりも予測信頼性を高める目的と,より効率的で相関性が高いことを示す。
論文参考訳（メタデータ） (2022-08-26T19:50:46Z)
Learning Self-Modulating Attention in Continuous Time Space with Applications to Sequential Recommendation [102.24108167002252]
本稿では,複雑で非線形に進化する動的ユーザの嗜好をモデル化する,自己変調型注意ネットワークを提案する。提案手法がトップNシーケンシャルなレコメンデーションタスクに与える影響を実証的に示すとともに,3つの大規模実世界のデータセットによる結果から,我々のモデルが最先端のパフォーマンスを達成できることを示す。
論文参考訳（メタデータ） (2022-03-30T03:54:11Z)
SURF: Semi-supervised Reward Learning with Data Augmentation for Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文参考訳（メタデータ） (2022-03-18T16:50:38Z)
Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文参考訳（メタデータ） (2022-02-09T08:38:50Z)
Reward prediction for representation learning and reward shaping [0.8883733362171032]
報酬予測のための自己監督による状態表現の学習を提案する。我々は、ポリシー学習中に報酬予測器を用いて報酬を形作ることにより、既成のrlエージェントのトレーニングを強化する。
論文参考訳（メタデータ） (2021-05-07T11:29:32Z)
Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文参考訳（メタデータ） (2020-02-28T10:28:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。