Fugu-MT 論文翻訳(概要): Enabling Adaptive Agent Training in Open-Ended Simulators by Targeting Diversity

論文の概要: Enabling Adaptive Agent Training in Open-Ended Simulators by Targeting Diversity

arxiv url: http://arxiv.org/abs/2411.04466v1
Date: Thu, 07 Nov 2024 06:27:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.244364
Title: Enabling Adaptive Agent Training in Open-Ended Simulators by Targeting Diversity
Title（参考訳）: 多様性を目標としたオープンエンディングシミュレータにおける適応エージェント訓練の実施
Authors: Robby Costales, Stefanos Nikolaidis,
Abstract要約: DIVAは複雑なオープンエンドシミュレータで多様なトレーニングタスクを生成するための進化的アプローチである。実験の結果,DIVAの複雑なパラメータ化を克服し,適応剤の挙動を訓練するユニークな能力を示す。
参考スコア（独自算出の注目度）: 10.402855891273346
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The wider application of end-to-end learning methods to embodied decision-making domains remains bottlenecked by their reliance on a superabundance of training data representative of the target domain. Meta-reinforcement learning (meta-RL) approaches abandon the aim of zero-shot generalization--the goal of standard reinforcement learning (RL)--in favor of few-shot adaptation, and thus hold promise for bridging larger generalization gaps. While learning this meta-level adaptive behavior still requires substantial data, efficient environment simulators approaching real-world complexity are growing in prevalence. Even so, hand-designing sufficiently diverse and numerous simulated training tasks for these complex domains is prohibitively labor-intensive. Domain randomization (DR) and procedural generation (PG), offered as solutions to this problem, require simulators to possess carefully-defined parameters which directly translate to meaningful task diversity--a similarly prohibitive assumption. In this work, we present DIVA, an evolutionary approach for generating diverse training tasks in such complex, open-ended simulators. Like unsupervised environment design (UED) methods, DIVA can be applied to arbitrary parameterizations, but can additionally incorporate realistically-available domain knowledge--thus inheriting the flexibility and generality of UED, and the supervised structure embedded in well-designed simulators exploited by DR and PG. Our empirical results showcase DIVA's unique ability to overcome complex parameterizations and successfully train adaptive agent behavior, far outperforming competitive baselines from prior literature. These findings highlight the potential of such semi-supervised environment design (SSED) approaches, of which DIVA is the first humble constituent, to enable training in realistic simulated domains, and produce more robust and capable adaptive agents.
Abstract（参考訳）: 意思決定領域を具現化するエンド・ツー・エンドの学習手法の広範な適用は、対象領域の代表的トレーニングデータの超知性に依存しているため、いまだにボトルネックとなっている。メタ強化学習(Meta-RL)アプローチは、標準強化学習(RL)の目標であるゼロショット一般化の目的を捨て、少数ショット適応を好んで、より大きな一般化ギャップを埋めることの約束を守る。このメタレベルの適応行動を学ぶには依然としてかなりのデータを必要とするが、現実の複雑さに近づいた効率的な環境シミュレータが普及しつつある。それでも、これらの複雑なドメインに対して、十分に多様かつ多数のシミュレートされたトレーニングタスクを手作業で設計することは、明らかに労働集約的である。ドメインランダム化(DR)と手続き生成(PG)は、この問題の解決策として提供され、シミュレーターは、意味のあるタスクの多様性に直接変換する注意深く定義されたパラメーターを持つ必要がある。本研究では,このような複雑でオープンなシミュレータにおける多様なトレーニングタスクを生成するための進化的アプローチであるDIVAを提案する。教師なし環境設計(UED)と同様に、DIVAは任意のパラメータ化に適用できるが、現実的に利用可能なドメイン知識を組み込むこともできる。実験結果から,DIVAの複雑なパラメータ化を克服し,適応エージェントの動作を訓練するユニークな能力を示す。このような半教師付き環境設計(SSED)アプローチの可能性を浮き彫りにしており、DIVAは初めての謙虚な構成であり、現実的なシミュレートされたドメインでのトレーニングを可能にし、より堅牢で有能な適応エージェントを生み出す。

関連論文リスト

Accelerating PDE Surrogates via RL-Guided Mesh Optimization [25.59164396092906]
RLMeshは、限られたシミュレーション予算の下で効率的な代理訓練のためのエンドツーエンドフレームワークである。軽量プロキシモデルは、完全なサロゲート再トレーニングなしで効率的な報酬推定を提供することで、RLトレーニングをさらに加速する。 PDEベンチマークの実験では、RLMeshはベースラインと競合する精度を達成できるが、シミュレーションクエリは大幅に少ない。
論文参考訳（メタデータ） (2026-03-02T16:55:08Z)
Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文参考訳（メタデータ） (2026-01-06T09:28:53Z)
Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。私たちのアプローチの中心は、強化学習と因果推論を統合することです。提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文参考訳（メタデータ） (2025-11-10T12:45:52Z)
Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。 ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文参考訳（メタデータ） (2025-10-11T18:11:09Z)
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文参考訳（メタデータ） (2025-09-02T17:46:26Z)
Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文参考訳（メタデータ） (2025-08-12T09:45:19Z)
Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
Adversarial Data Augmentation for Single Domain Generalization via Lyapunov Exponent-Guided Optimization [6.619253289031494]
単一ドメインの一般化は、単一のソースドメインのみを使用して、対象ドメインを見えないように一般化できるモデルを開発することを目的としている。 Lyapunov Exponent (LE) を用いた動的システム理論に基づく新しい最適化手法であるLEAwareSGDを提案する。 PACS、OfficeHome、DomainNetの実験は、LEAwareSGDがかなりの一般化の利益をもたらすことを示した。
論文参考訳（メタデータ） (2025-07-06T09:03:08Z)
MSDA: Combining Pseudo-labeling and Self-Supervision for Unsupervised Domain Adaptation in ASR [59.83547898874152]
本稿では,自己教師付き学習と半教師付き技術を統合する,サンプル効率のよい2段階適応手法を提案する。 MSDAは、ASRモデルの堅牢性と一般化を強化するように設計されている。本稿では,メタPLがASRタスクに効果的に適用可能であることを示す。
論文参考訳（メタデータ） (2025-05-30T14:46:05Z)
Mind the Gap: Towards Generalizable Autonomous Penetration Testing via Domain Randomization and Meta-Reinforcement Learning [15.619925926862235]
GAPは汎用的な自律型ペンテスティングフレームワークである。現実的な環境で効率的な政策トレーニングを実現することを目的としている。また、あるインスタンスから他のケースについて推論できるエージェントを訓練する。
論文参考訳（メタデータ） (2024-12-05T11:24:27Z)
LoopSR: Looping Sim-and-Real for Lifelong Policy Adaptation of Legged Robots [20.715834172041763]
本稿では,生涯にわたるポリシー適応フレームワークであるLoopSRを提案する。さらなる改善のためにシミュレーションで現実世界の環境を再構築する。継続的なトレーニングを活用することで、LoopSRは強力なベースラインに比べて優れたデータ効率を達成する。
論文参考訳（メタデータ） (2024-09-26T16:02:25Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Learning Curricula in Open-Ended Worlds [17.138779075998084]
この論文は、Unsupervised Environment Design (UED)と呼ばれる手法のクラスを開発する。環境設計空間が与えられたら、UEDは自動的に訓練環境の無限のシーケンスやカリキュラムを生成する。本論文は,UEDオートキュリキュラがRL薬を産生し,ロバスト性を大幅に改善することを示した。
論文参考訳（メタデータ） (2023-12-03T16:44:00Z)
INTAGS: Interactive Agent-Guided Simulation [4.04638613278729]
マルチエージェントシステム(MAS)を含む多くのアプリケーションでは、実稼働に先立って、実験的な(Exp)自律エージェントを高忠実度シミュレータでテストすることが必須である。本稿では,ExpエージェントとBGエージェントのライブインタラクションによって評価される実システムと合成マルチエージェントシステムとを区別する指標を提案する。 InTAGSを用いてシミュレータのキャリブレーションを行い、現状のWasserstein Generative Adversarial Networkアプローチと比較して、より現実的な市場データを生成することができることを示す。
論文参考訳（メタデータ） (2023-09-04T19:56:18Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Consistency Regularization for Generalizable Source-free Domain Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-03T07:45:53Z)
End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文参考訳（メタデータ） (2023-05-25T10:58:46Z)
Heterogeneous Domain Adaptation and Equipment Matching: DANN-based Alignment with Cyclic Supervision (DBACS) [3.4519649635864584]
この研究は、サイクリック・スーパービジョン(DBACS)アプローチによるドメイン適応ニューラルネットワークを導入している。 DBACSはドメイン適応によるモデル一般化の問題、特に異種データに対処する。この作業には、サブスペースアライメントや、異種表現を扱う多視点学習も含まれる。
論文参考訳（メタデータ） (2023-01-03T10:56:25Z)
One-Shot Domain Adaptive and Generalizable Semantic Segmentation with Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文参考訳（メタデータ） (2022-12-14T15:54:15Z)
Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文参考訳（メタデータ） (2021-03-01T22:55:48Z)
Zero-Shot Reinforcement Learning with Deep Attention Convolutional Neural Networks [12.282277258055542]
本研究では、特定の視覚センサ構成を持つ深層注意畳み込みニューラルネットワーク(DACNN)が、より低い計算複雑性で高いドメインとパラメータの変動を持つデータセット上でトレーニングを行うことを示す。我々の新しいアーキテクチャは、制御対象に対する認識に適応し、知覚ネットワークを事前訓練することなくゼロショット学習を実現する。
論文参考訳（メタデータ） (2020-01-02T19:41:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。