Fugu-MT 論文翻訳(概要): Scalable Semantic Non-Markovian Simulation Proxy for Reinforcement Learning

論文の概要: Scalable Semantic Non-Markovian Simulation Proxy for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2310.06835v1
Date: Tue, 10 Oct 2023 17:59:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-11 14:16:37.127898
Title: Scalable Semantic Non-Markovian Simulation Proxy for Reinforcement Learning
Title（参考訳）: 強化学習のためのスケーラブルなセマンティック非マルコフシミュレーションプロキシ
Authors: Kaustuv Mukherji, Devendra Parkar, Lahari Pokala, Dyuman Aditya, Paulo Shakarian, Clark Dorman
Abstract要約: 本稿では,アノテート論理に対する時間的拡張に基づくシミュレーションのセマンティックプロキシを提案する。 2つの高忠実度シミュレータと比較して、最大3桁のスピードアップを示す。
参考スコア（独自算出の注目度）: 0.125828876338076
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in reinforcement learning (RL) have shown much promise across a variety of applications. However, issues such as scalability, explainability, and Markovian assumptions limit its applicability in certain domains. We observe that many of these shortcomings emanate from the simulator as opposed to the RL training algorithms themselves. As such, we propose a semantic proxy for simulation based on a temporal extension to annotated logic. In comparison with two high-fidelity simulators, we show up to three orders of magnitude speed-up while preserving the quality of policy learned in addition to showing the ability to model and leverage non-Markovian dynamics and instantaneous actions while providing an explainable trace describing the outcomes of the agent actions.
Abstract（参考訳）: 近年の強化学習(RL)の進歩は,様々な応用において大きな可能性を秘めている。しかしながら、スケーラビリティ、説明可能性、マルコフの仮定といった問題は、特定の領域での適用性を制限する。これらの欠点の多くは、RLトレーニングアルゴリズム自体とは対照的に、シミュレータから発せられる。そこで我々は,アノテーション付き論理への時間的拡張に基づくシミュレーションのセマンティックプロキシを提案する。 2つの高忠実度シミュレータと比較して、学習したポリシーの質を保ちながら最大3桁のスピードアップを示すとともに、非マルコフ力学と即時行動のモデル化と活用能力を示し、エージェントアクションの結果を説明する説明可能なトレースを提供する。

関連論文リスト

In-Context Autonomous Network Incident Response: An End-to-End Large Language Model Agent Approach [3.733830491643117]
我々は,大規模言語モデルの事前訓練されたセキュリティ知識とコンテキスト内学習を活用して,インシデント対応計画のためのエンドツーエンドのエージェントソリューションを作成することを提案する。具体的には、認識、推論、計画、行動の4つの機能を1つの軽量LCM(14bモデル)に統合する。我々のエージェントは、フロンティアLSMよりも最大で23%早く回復できる。
論文参考訳（メタデータ） (2026-02-13T18:09:30Z)
ARTIS: Agentic Risk-Aware Test-Time Scaling via Iterative Simulation [72.78362530982109]
ARTIS(Agenic Risk-Aware Test-Time Scaling via Iterative Simulation)は、コミットメントから探索を分離するフレームワークである。 LLMをベースとした簡易シミュレータは, 希少かつ高インパクトな障害モードの捕捉に苦慮していることを示す。本稿では,障害発生行動の忠実度を強調するリスク認識ツールシミュレータを提案する。
論文参考訳（メタデータ） (2026-02-02T06:33:22Z)
See, Think, Act: Online Shopper Behavior Simulation with VLM Agents [58.92444959954643]
本稿では,視覚情報,特にWebページスクリーンショットのVLMによる動作シミュレーションへの統合について検討する。我々は,協調行動予測と合理化生成にSFTを用いて,相互作用の完全な文脈を条件づける。推論能力をさらに強化するため,RLを階層的な報酬構造と統合し,難易度因子によって拡張する。
論文参考訳（メタデータ） (2025-10-22T05:07:14Z)
SPACeR: Self-Play Anchoring with Centralized Reference Models [50.55045557371374]
Simエージェントポリシーは、現実的で、人間らしく、高速で、マルチエージェント設定でスケーラブルである。大規模な拡散モデルやトークン化モデルを用いた模倣学習の最近の進歩は、人間の運転データから直接行動を把握することができることを示している。本研究では,事前訓練されたトークン化自己回帰運動モデルを利用したSPACeRを提案する。
論文参考訳（メタデータ） (2025-10-20T19:53:02Z)
Dyna-Mind: Learning to Simulate from Experience for Better AI Agents [62.21219817256246]
私たちは、現在のAIエージェントは、行動する前に、別の未来を精神的にシミュレートする能力である「悪意ある試行錯誤」を必要としていると論じます。我々は、(V)LMエージェントに対して、そのようなシミュレーションを推論に組み込むように明示的に教える2段階のトレーニングフレームワークであるDyna-Mindを紹介した。
論文参考訳（メタデータ） (2025-10-10T17:30:18Z)
Uncertainty-Based Smooth Policy Regularisation for Reinforcement Learning with Few Demonstrations [8.436020932157684]
Smooth Policy Regularisation from Demonstrations (SPReD) は基本的な問題に対処するフレームワークである。 SPReDはアンサンブル法を用いて、実証行動と政策行動の両方のQ値分布を明示的にモデル化し、比較の不確実性を定量化する。 8つのロボティクスタスクにわたる実験では、複雑なタスクにおいて14倍まで既存のアプローチを上回りながら、品質と量を示すための堅牢性を維持している。
論文参考訳（メタデータ） (2025-09-19T13:47:20Z)
Shop-R1: Rewarding LLMs to Simulate Human Behavior in Online Shopping via Reinforcement Learning [27.226155951073064]
Shop-R1は大規模言語モデル(LLM)の推論能力向上を目的とした新しい強化学習フレームワークである合理的な生成には、内部モデル信号(例えば、ロジット分布)を活用して、推論プロセスを自己管理的に導く。行動予測のために,報酬ハッキングを防止するため,スケーリングの難しさを考慮した階層型報酬構造を提案する。
論文参考訳（メタデータ） (2025-07-23T18:10:43Z)
Unveiling the Black Box: A Multi-Layer Framework for Explaining Reinforcement Learning-Based Cyber Agents [4.239727656979701]
RLをベースとした攻撃者に対する統一的多層説明可能性フレームワークを提案する。 MDPレベルでは、サイバー攻撃を部分的に観測可能なマルコフ決定プロセス(POMDP)としてモデル化する。政策レベルでは、Q値の時間的進化を分析し、優先体験再生(PER)を用いて批判的な学習遷移を表面化する。
論文参考訳（メタデータ） (2025-05-16T21:29:55Z)
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文参考訳（メタデータ） (2025-04-24T17:57:08Z)
AdaCred: Adaptive Causal Decision Transformers with Feature Crediting [11.54181863246064]
AdaCredは、短時間のアクション・リワード状態列から構築された因果グラフとして軌跡を表す新しいアプローチである。実験により,AdaCredをベースとしたポリシでは,より短い軌道列が必要であり,オフライン強化学習と模倣学習環境の両方において従来手法よりも一貫して優れていたことが実証された。
論文参考訳（メタデータ） (2024-12-19T22:22:37Z)
Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文参考訳（メタデータ） (2024-09-12T11:50:06Z)
Re-Simulation-based Self-Supervised Learning for Pre-Training Foundation Models [1.1468680421853177]
自己監視学習(SSL)は、現代の大規模機械学習モデルのトレーニングの中核にある。シミュレーションに基づく新しいSSL戦略であるRS3L(Re-simulation-based self-supervised representation learning)を提案する。本稿では、RS3L事前学習が、様々な物体の識別や不確実性軽減といった下流タスクにおいて、強力な性能を実現する方法を示す。
論文参考訳（メタデータ） (2024-03-11T18:00:47Z)
SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文参考訳（メタデータ） (2023-12-31T04:14:43Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Anchored Learning for On-the-Fly Adaptation -- Extended Technical Report [45.123633153460034]
本研究は「アンカー批評家」であり, 実空間を横断する強化学習(RL)エージェントの堅牢性を高めるための新たな戦略である。そこでは、政策が頻繁に遭遇する状態に対して高い報酬を維持するが、稀で重要なシナリオではパフォーマンスを失う。提案手法は,シム・トゥ・シム・ジム・タスクやシム・トゥ・リアルシナリオにおいて,制御可能な安定飛行を維持しつつ,ほぼ50%の消費電力削減を実現することができることを示す。
論文参考訳（メタデータ） (2023-01-17T16:16:53Z)
Guaranteed Conservation of Momentum for Learning Particle-based Fluid Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2022-10-12T09:12:59Z)
Backpropagation through Time and Space: Learning Numerical Methods with Multi-Agent Reinforcement Learning [6.598324641949299]
強化学習(RL)における偏微分方程式に基づく数値スキームを部分観測可能なマルコフゲーム(OMG)として扱う。数値解法と同様に、エージェントは各離散位置において、効率的な一般化可能な学習のための計算空間として機能する。局所状態に作用して高次の空間的手法を学ぶためには、エージェントは与えられた時間的位置での作用が状態の将来の進化にどのように影響するかを識別する必要がある。
論文参考訳（メタデータ） (2022-03-16T20:50:24Z)
Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文参考訳（メタデータ） (2022-03-14T17:24:03Z)
TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。 TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文参考訳（メタデータ） (2021-01-17T00:29:30Z)
Large-Scale Multi-Agent Deep FBSDEs [28.525065041507982]
架空のプレイを用いたマルチエージェントゲームにおいてマルコフ的ナッシュ平衡を求めるためのフレームワークを提案する。我々は,現在最先端のディープラーニングプレイアルゴリズムに対して,我々のフレームワークの優れた性能を示す。また,ロボット工学における我々のフレームワークの適用性を,信仰空間における自律レース問題に適用可能であることを実証する。
論文参考訳（メタデータ） (2020-11-21T23:00:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。