論文の概要: Heterogeneous Adversarial Play in Interactive Environments
- arxiv url: http://arxiv.org/abs/2510.18407v1
- Date: Tue, 21 Oct 2025 08:29:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.153798
- Title: Heterogeneous Adversarial Play in Interactive Environments
- Title(参考訳): 対話型環境における不均質な敵対的遊び
- Authors: Manjie Xu, Xinyi Yang, Jiayu Zhan, Wei Liang, Chi Zhang, Yixin Zhu,
- Abstract要約: Heterogeneous Adversarial Play (HAP) は、教師と学生の交流を最小限の最適化として形式化する対向的な自動カリキュラム学習フレームワークである。
本フレームワークは, 人工エージェントと人体の両方の学習効率を高めるカリキュラムを作成しながら, SOTAベースラインと性能の同等性を実現している。
- 参考スコア(独自算出の注目度): 15.718025074467453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-play constitutes a fundamental paradigm for autonomous skill acquisition, whereby agents iteratively enhance their capabilities through self-directed environmental exploration. Conventional self-play frameworks exploit agent symmetry within zero-sum competitive settings, yet this approach proves inadequate for open-ended learning scenarios characterized by inherent asymmetry. Human pedagogical systems exemplify asymmetric instructional frameworks wherein educators systematically construct challenges calibrated to individual learners' developmental trajectories. The principal challenge resides in operationalizing these asymmetric, adaptive pedagogical mechanisms within artificial systems capable of autonomously synthesizing appropriate curricula without predetermined task hierarchies. Here we present Heterogeneous Adversarial Play (HAP), an adversarial Automatic Curriculum Learning framework that formalizes teacher-student interactions as a minimax optimization wherein task-generating instructor and problem-solving learner co-evolve through adversarial dynamics. In contrast to prevailing ACL methodologies that employ static curricula or unidirectional task selection mechanisms, HAP establishes a bidirectional feedback system wherein instructors continuously recalibrate task complexity in response to real-time learner performance metrics. Experimental validation across multi-task learning domains demonstrates that our framework achieves performance parity with SOTA baselines while generating curricula that enhance learning efficacy in both artificial agents and human subjects.
- Abstract(参考訳): セルフプレイは自律的なスキル獲得の基本的なパラダイムであり、エージェントは自己指向の環境探索を通じてその能力を反復的に強化する。
従来のセルフプレイフレームワークはゼロサム競合設定内でエージェント対称性を利用するが、本手法は固有の非対称性によって特徴づけられるオープンエンド学習シナリオに不適切であることを証明している。
人間の教育システムは、学習者の発達軌跡に合わせて分類された課題を体系的に構築する非対称的な教育の枠組みを実証する。
主な課題は、所定のタスク階層なしに適切なカリキュラムを自律的に合成できる人工システム内で、これらの非対称で適応的な教育機構を運用することにある。
本稿では,教師と生徒のインタラクションを最小限の最適化として形式化する,対向的自動カリキュラム学習フレームワークであるHeterogeneous Adversarial Play(HAP)について述べる。
静的カリキュラムや一方向タスク選択機構を利用する一般的なACL手法とは対照的に、HAPは双方向フィードバックシステムを構築し、インストラクターはリアルタイム学習者のパフォーマンス指標に応じてタスクの複雑さを継続的に再検討する。
マルチタスク学習領域にまたがる実験的な検証により,本フレームワークがSOTAベースラインと同等に動作し,人工エージェントと人体の両方で学習効率を高めるキュキュラを生成した。
関連論文リスト
- Social World Model-Augmented Mechanism Design Policy Learning [58.739456918502704]
SWM-AP (Social World Model-Augmented Mechanism Design Policy Learning) を導入する。
SWM-APは,累積報酬とサンプル効率において,モデルベースおよびモデルフリーのRLベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-10-22T06:01:21Z) - Fundamentals of Building Autonomous LLM Agents [64.39018305018904]
本稿では,大規模言語モデル(LLM)を用いたエージェントのアーキテクチャと実装手法について概説する。
この研究は、複雑なタスクを自動化し、人間の能力でパフォーマンスのギャップを埋めることのできる「アジェンティック」なLLMを開発するためのパターンを探求することを目的としている。
論文 参考訳(メタデータ) (2025-10-10T10:32:39Z) - Large Language Models in Architecture Studio: A Framework for Learning Outcomes [0.0]
本研究は,建築デザインスタジオにおける大規模言語モデル(LLM)の役割について考察する。
主な課題は、学生の自主性の管理、ピアフィードバックの緊張、技術知識の伝達と教育における創造性の刺激とのバランスの難しさである。
論文 参考訳(メタデータ) (2025-10-08T02:51:22Z) - A Motivational Architecture for Open-Ended Learning Challenges in Robots [42.797352384123386]
我々は,新たな目標を自律的に発見し,達成に必要なスキルを習得し,相互依存型タスクに取り組むためのスキルシーケンスを生成し,非定常環境に適応する階層型アーキテクチャH-GRAILを紹介する。
我々はH-GRAILを実際のロボットシナリオでテストし、提案手法がオープンエンド学習の様々な課題に効果的に対処する方法を実証した。
論文 参考訳(メタデータ) (2025-06-23T09:46:05Z) - Reward-free World Models for Online Imitation Learning [25.304836126280424]
本研究では,報酬のない世界モデルを活用したオンライン模倣学習手法を提案する。
提案手法は, 復元を伴わない潜在空間における環境力学を学習し, 効率的かつ高精度なモデリングを可能にする。
DMControl,myoSuite, ManiSkill2 など,様々なベンチマークを用いて本手法の評価を行い,既存手法と比較して優れた実証性能を示した。
論文 参考訳(メタデータ) (2024-10-17T23:13:32Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Sample-Efficient Reinforcement Learning with Symmetry-Guided Demonstrations for Robotic Manipulation [7.099237102357281]
強化学習(RL)は、特に高次元連続状態-作用空間において、サンプル効率の低下に悩まされる。
デモとRL生成の両方を格納するデュアルバッファアーキテクチャを用いた新しいトレーニングフレームワークであるDemo-EASEを紹介する。
その結果,Demo-EASEは標準のRLベースラインに比べてコンバージェンスを著しく加速し,最終性能を向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-12T11:38:01Z) - Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。
特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。
そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文 参考訳(メタデータ) (2022-05-16T10:43:01Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。