Fugu-MT 論文翻訳(概要): Reinforcement Learning through Active Inference

論文の概要: Reinforcement Learning through Active Inference

arxiv url: http://arxiv.org/abs/2002.12636v1
Date: Fri, 28 Feb 2020 10:28:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-28 01:29:53.929046
Title: Reinforcement Learning through Active Inference
Title（参考訳）: アクティブ推論による強化学習
Authors: Alexander Tschantz, Beren Millidge, Anil K. Seth, Christopher L. Buckley
Abstract要約: アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
参考スコア（独自算出の注目度）: 62.997667081978825
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The central tenet of reinforcement learning (RL) is that agents seek to maximize the sum of cumulative rewards. In contrast, active inference, an emerging framework within cognitive and computational neuroscience, proposes that agents act to maximize the evidence for a biased generative model. Here, we illustrate how ideas from active inference can augment traditional RL approaches by (i) furnishing an inherent balance of exploration and exploitation, and (ii) providing a more flexible conceptualization of reward. Inspired by active inference, we develop and implement a novel objective for decision making, which we term the free energy of the expected future. We demonstrate that the resulting algorithm successfully balances exploration and exploitation, simultaneously achieving robust performance on several challenging RL benchmarks with sparse, well-shaped, and no rewards.
Abstract（参考訳）: 強化学習(RL)の中心的特徴は、エージェントが累積報酬の総和を最大化しようとすることである。対照的に、認知神経科学と計算神経科学の新たな枠組みである能動的推論は、エージェントがバイアス付き生成モデルの証拠を最大化するために行動することを提案する。ここでは、アクティブ推論のアイデアが従来のRLアプローチをどのように拡張するかを説明する。 (i)探索と搾取の固有のバランスを提供する (ii)報酬のより柔軟な概念化を提供する。能動的推論にインスパイアされ、我々は、期待される未来の自由エネルギー(free energy of the future)と呼ぶ、意思決定のための新しい目標を開発し、実装する。得られたアルゴリズムは探索とエクスプロイトのバランスをうまく保ち、同時にスパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて堅牢な性能を達成することを実証する。

関連論文リスト

Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。 LRM効率を向上させるための2つの軽量手法を提案する。まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文参考訳（メタデータ） (2025-06-18T17:18:12Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
RIZE: Regularized Imitation Learning via Distributional Reinforcement Learning [0.3222802562733786]
固定された報酬の割り当ての制限を克服する新しい逆強化学習(IRL)手法を導入する。最大エントロピーIRLフレームワークを2乗時間差正規化器(TD)と適応目標で拡張し、トレーニング中に動的に調整する。提案手法は,MuJoCoタスクに挑戦する上での最先端のパフォーマンスを実現し,Humanoidタスクのエキスパートレベルを3つのデモで示す。
論文参考訳（メタデータ） (2025-02-27T13:47:29Z)
Reusing Embeddings: Reproducible Reward Model Research in Large Language Model Alignment without GPUs [58.18140409409302]
大規模言語モデル (LLM) は強化学習 (RL) を通じて構造化タスクに大きく進歩した。チャットボットやコンテンツ生成といった幅広い分野にRLを適用することは、ユニークな課題だ。埋め込み型報酬モデルを用いた既存の報酬モデルアンサンブル研究の再現事例について述べる。
論文参考訳（メタデータ） (2025-02-04T19:37:35Z)
On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文参考訳（メタデータ） (2024-10-08T03:12:57Z)
A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning [48.59516337905877]
優れた表現を学ぶことは、強化学習(RL)エージェントにとって重要な課題である。近年の研究では、これらのアルゴリズムに関する理論的洞察が生まれている。我々は,行動条件の自己予測的目的を分析することによって,理論と実践のギャップを埋める一歩を踏み出した。
論文参考訳（メタデータ） (2024-06-04T07:22:12Z)
REACT: Revealing Evolutionary Action Consequence Trajectories for Interpretable Reinforcement Learning [7.889696505137217]
強化学習の解釈可能性を高めるために,Revealing Evolutionary Action Consequence Trajectories (REACT)を提案する。トレーニング中に学習した最適な振る舞いに基づくRLモデルの一般的な実践とは対照的に、エッジケースの軌跡の範囲を考慮すると、それらの固有の振る舞いをより包括的に理解することができると仮定する。本研究は,RLモデルの動作の微妙な側面を最適性能を超えて明らかにし,解釈可能性の向上に寄与することを示す。
論文参考訳（メタデータ） (2024-04-04T10:56:30Z)
Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文参考訳（メタデータ） (2024-03-31T11:39:11Z)
Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-17T00:26:31Z)
Active Inference and Reinforcement Learning: A unified inference on continuous state and action spaces under partial observability [19.56438470022024]
多くの実世界の問題は、部分的に観測可能な決定過程(POMDP)として定式化された部分的な観察を含む。これまでの研究では、過去の行動や観察の記憶を取り入れたり、環境の本当の状態を推測することで、PMDPのRLに取り組みました。アクティブ推論(AIF)と強化学習(RL)の理論的関係を確立する統一原理を提案する。実験により,連続的な空間を部分的に観測可能なタスクを解く上で,本手法の優れた学習能力を実証した。
論文参考訳（メタデータ） (2022-12-15T16:28:06Z)
Intrinsically-Motivated Reinforcement Learning: A Brief Introduction [0.0]
強化学習(Reinforcement Learning, RL)は、機械学習の3つの基本パラダイムの1つである。本稿では,RLにおける探査改善の問題点を考察し,本質的な動機付け型RLを導入した。
論文参考訳（メタデータ） (2022-03-03T12:39:58Z)
Online reinforcement learning with sparse rewards through an active inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-04T10:03:36Z)
Imitation with Neural Density Models [98.34503611309256]
本稿では,Imitation Occupancy Entropy Reinforcement Learning (RL) を報奨として,専門家の占有率の密度推定によるImitation Learning (IL) の新しい枠組みを提案する。提案手法は,専門家の占有率と模倣者の占有率の逆Kulback-Leibler偏差を確実に低くする非逆モデル自由RLの目的を最大化する。
論文参考訳（メタデータ） (2020-10-19T19:38:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。