Fugu-MT 論文翻訳(概要): Maximum diffusion reinforcement learning

論文の概要: Maximum diffusion reinforcement learning

arxiv url: http://arxiv.org/abs/2309.15293v5
Date: Fri, 24 May 2024 18:49:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 11:58:46.242505
Title: Maximum diffusion reinforcement learning
Title（参考訳）: 最大拡散強化学習
Authors: Thomas A. Berrueta, Allison Pinosky, Todd D. Murphey,
Abstract要約: 相関は機械学習に根本的な課題を生み出す。エージェントのシーケンシャルな経験からデータが直接収集される強化学習では、この仮定の違反は避けられないことが多い。エージェントエクスペリエンスを関連付けることで、継続的デプロイメントにおけるシングルショット学習を確実に実現します。
参考スコア（独自算出の注目度）: 7.334017970483869
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Robots and animals both experience the world through their bodies and senses. Their embodiment constrains their experiences, ensuring they unfold continuously in space and time. As a result, the experiences of embodied agents are intrinsically correlated. Correlations create fundamental challenges for machine learning, as most techniques rely on the assumption that data are independent and identically distributed. In reinforcement learning, where data are directly collected from an agent's sequential experiences, violations of this assumption are often unavoidable. Here, we derive a method that overcomes this issue by exploiting the statistical mechanics of ergodic processes, which we term maximum diffusion reinforcement learning. By decorrelating agent experiences, our approach provably enables single-shot learning in continuous deployments over the course of individual task attempts. Moreover, we prove our approach generalizes well-known maximum entropy techniques, and robustly exceeds state-of-the-art performance across popular benchmarks. Our results at the nexus of physics, learning, and control form a foundation for transparent and reliable decision-making in embodied reinforcement learning agents.
Abstract（参考訳）: ロボットと動物はともに身体と感覚を通して世界を経験する。彼らの体格は経験を制約し、空間と時間で連続的に展開することを保証する。その結果, 内因性に相関が認められた。相関は、データが独立して同一に分散されているという仮定に依存するため、機械学習の基本的な課題を生み出す。エージェントのシーケンシャルな経験からデータが直接収集される強化学習では、この仮定の違反は避けられないことが多い。本稿では,エルゴード過程の統計力学を利用してこの問題を克服する手法を導出する。エージェントエクスペリエンスを関連づけることで,個別のタスク試行を通じて,継続的デプロイメントにおける単発学習を確実に実現する。さらに,本手法は,よく知られた最大エントロピー手法を一般化し,一般的なベンチマークにおける最先端性能を頑健に上回ることを示す。物理・学習・制御のネクサスにおける我々の研究成果は、具体化された強化学習エージェントにおける透明で信頼性の高い意思決定の基礎となる。

関連論文リスト

Self-Consolidation for Self-Evolving Agents [51.94826934403236]
大規模言語モデル(LLM)エージェントは静的システムとして機能し、生涯にわたる相互作用を通じて進化する能力に欠ける。相補的進化機構を導入したLLMエージェントのための新しい自己進化フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-02T11:16:07Z)
Large Language Model Agents Are Not Always Faithful Self-Evolvers [84.08646612111092]
自己進化型大規模言語モデル(LLM)エージェントは、過去の経験を蓄積し再利用することによって継続的に改善される。本稿では,経験の忠実さ,エージェントの判断が与えられた経験に因果的依存を初めて体系的に調査する。
論文参考訳（メタデータ） (2026-01-30T01:05:15Z)
Retrieval-augmented Prompt Learning for Pre-trained Foundation Models [101.13972024610733]
本稿では,記憶と一般化のバランスをとることを目的としたRetroPromptを提案する。従来のプロンプトメソッドとは異なり、RetroPromptは入力、トレーニング、推論ステージ全体にわたって検索メカニズムを組み込んでいる。提案手法の優れた性能を示すために,自然言語処理やコンピュータビジョンタスクにまたがる様々なデータセットに関する総合的な実験を行った。
論文参考訳（メタデータ） (2025-12-23T08:15:34Z)
Human-Inspired Learning for Large Language Models via Obvious Record and Maximum-Entropy Method Discovery [0.11844977816228043]
本稿では,2つの相補的なメカニズムを組み込んだヒューマンインスピレーション学習フレームワークを提案する。第一のObvious Recordは、因果関係(または疑問解決)を象徴記憶として明示的に記憶する。第二に、最大エントロピー法発見(Maximum-Entropy Method Discovery)は、高いセマンティックな相似性を持つメソッドを優先順位付けし、保存する。
論文参考訳（メタデータ） (2025-12-14T09:12:09Z)
Agent Learning via Early Experience [93.83579011718858]
言語エージェントの長期的な目標は、彼ら自身の経験から学び、改善することであり、最終的には複雑な現実世界のタスクにおいて人間より優れています。現在のエージェントのほとんどは、専門家データによる教師付き微調整に依存しており、スケールと一般化が不十分である。本研究では,(1)環境力学における政策の基盤として収集された状態を利用するインプリシット・ワールド・モデリング,(2)エージェントが最適な行動から学習し,推論と意思決定を改善するための自己回帰という2つの手法について検討する。
論文参考訳（メタデータ） (2025-10-09T17:59:17Z)
Global Convergence of Continual Learning on Non-IID Data [51.99584235667152]
回帰モデルの連続学習のための総合的・包括的理論的解析を行う。一般データ条件下で連続学習のほぼ確実に収束する結果を初めて確立する。
論文参考訳（メタデータ） (2025-03-24T10:06:07Z)
In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文参考訳（メタデータ） (2025-03-17T02:00:49Z)
"Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations [3.637365301757111]
専門家デモ(RLED)からの強化学習(Reinforcement Learning from Expert Demonstrations)のような手法は、学習プロセス中のエージェント探索を促進するために外部の専門家によるデモンストレーションを導入します。学習にとって最も有益な人間のデモのベストセットをどうやって選ぶかが、大きな関心事になります。本稿では,学習エージェントが軌跡に基づく特徴空間において,専門家による実演を最適化したクエリを生成できるアルゴリズムEARLYを提案する。
論文参考訳（メタデータ） (2024-06-05T08:52:21Z)
Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文参考訳（メタデータ） (2024-02-04T05:50:38Z)
Joint Training of Deep Ensembles Fails Due to Learner Collusion [61.557412796012535]
機械学習モデルのアンサンブルは、単一のモデルよりもパフォーマンスを改善する強力な方法として確立されている。伝統的に、アンサンブルアルゴリズムは、ジョイントパフォーマンスの最適化を目標として、ベースラーナーを独立または逐次訓練する。アンサンブルの損失を最小化することは、実際にはほとんど適用されないことを示す。
論文参考訳（メタデータ） (2023-01-26T18:58:07Z)
Evaluating Membership Inference Through Adversarial Robustness [6.983991370116041]
本稿では,敵の強靭性に基づくメンバシップ推論攻撃の強化手法を提案する。提案手法をFashion-MNIST, CIFAR-10, CIFAR-100の3つのデータセットで評価した。
論文参考訳（メタデータ） (2022-05-14T06:48:47Z)
On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文参考訳（メタデータ） (2022-02-25T13:47:09Z)
Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。 RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文参考訳（メタデータ） (2021-12-17T16:28:06Z)
Lifelong Learning from Event-based Data [22.65311698505554]
イベントカメラが生成したデータから学習する方法を検討する。特徴抽出と連続学習の両方からなるモデルを提案する。
論文参考訳（メタデータ） (2021-11-11T17:59:41Z)
Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文参考訳（メタデータ） (2021-07-10T03:49:41Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
A Wholistic View of Continual Learning with Deep Neural Networks: Forgotten Lessons and the Bridge to Active and Open World Learning [8.188575923130662]
オープンデータセット認識による顕著な教訓,観測データセット外の統計的逸脱したデータの識別,および近接するアクティブラーニングの分野は,深層学習時代においてしばしば見過ごされる。我々の結果は、これは個々のパラダイムに利益をもたらすだけでなく、共通のフレームワークにおける自然なシナジーを強調していることを示している。
論文参考訳（メタデータ） (2020-09-03T16:56:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。