論文の概要: Dreaming in Code for Curriculum Learning in Open-Ended Worlds
- arxiv url: http://arxiv.org/abs/2602.08194v1
- Date: Mon, 09 Feb 2026 01:24:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.021467
- Title: Dreaming in Code for Curriculum Learning in Open-Ended Worlds
- Title(参考訳): オープンエンド世界におけるカリキュラム学習のためのコードの夢
- Authors: Konstantinos Mitsides, Maxence Faldor, Antoine Cully,
- Abstract要約: Dreaming in Code (DiCode)は、基礎モデルが環境コードを合成し、能力向上に向けて学習するフレームワークである。
DiCode in Craftaxは、リッチなメカニクスとロングホライゾンの進行を特徴とする、挑戦的なオープンエンドベンチマークです。
本研究は,プログラムレベルの環境設計がカリキュラム管理の実践的なメカニズムを提供し,オープンエンドの世界におけるコンピテンスギャップを埋める中間環境の構築を可能にすることを示唆する。
- 参考スコア(独自算出の注目度): 11.954246951892905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-ended learning frames intelligence as emerging from continual interaction with an ever-expanding space of environments. While recent advances have utilized foundation models to programmatically generate diverse environments, these approaches often focus on discovering isolated behaviors rather than orchestrating sustained progression. In complex open-ended worlds, the large combinatorial space of possible challenges makes it difficult for agents to discover sequences of experiences that remain consistently learnable. To address this, we propose Dreaming in Code (DiCode), a framework in which foundation models synthesize executable environment code to scaffold learning toward increasing competence. In DiCode, "dreaming" takes the form of materializing code-level variations of the world. We instantiate DiCode in Craftax, a challenging open-ended benchmark characterized by rich mechanics and long-horizon progression. Empirically, DiCode enables agents to acquire long-horizon skills, achieving a $16\%$ improvement in mean return over the strongest baseline and non-zero success on late-game combat tasks where prior methods fail. Our results suggest that code-level environment design provides a practical mechanism for curriculum control, enabling the construction of intermediate environments that bridge competence gaps in open-ended worlds. Project page and source code are available at https://konstantinosmitsides.github.io/dreaming-in-code and https://github.com/konstantinosmitsides/dreaming-in-code.
- Abstract(参考訳): オープンエンド学習は、インテリジェンスを、絶え間なく拡大する環境空間との継続的な相互作用から生まれるものと捉えている。
近年の進歩は、基礎モデルを利用して多様な環境をプログラム的に生成しているが、これらのアプローチは、持続的な進行を編成するのではなく、孤立した行動を発見することに重点を置いていることが多い。
複雑なオープンエンドの世界では、起こりうる課題の大規模な組み合わせ空間は、エージェントが一貫して学習可能な一連の経験を発見するのを困難にしている。
これを解決するために,基礎モデルが実行可能環境コードを合成し,能力向上に向けた足場学習を行うフレームワークであるDreaming in Code (DiCode)を提案する。
DiCodeでは、"ドレーミング(dreaming)"は、世界のコードレベルのバリエーションを実体化する形式である。
DiCode in Craftaxは、リッチなメカニクスと長い水平進行を特徴とする、挑戦的なオープンエンドベンチマークです。
実証的に、DiCodeはエージェントが長距離スキルを取得できるようにし、最強のベースラインよりも平均で16セント%の改善と、先行メソッドが失敗するレイトゲーム戦闘タスクにおけるゼロではない成功を実現している。
本研究は,プログラムレベルの環境設計がカリキュラム管理の実践的なメカニズムを提供し,オープンエンドの世界におけるコンピテンスギャップを埋める中間環境の構築を可能にすることを示唆する。
プロジェクトページとソースコードはhttps://konstantinosmitsides.github.io/dreaming-in-codeとhttps://github.com/konstantinosmitsides/dreaming-in-codeで入手できる。
関連論文リスト
- Web World Models [60.208836336654315]
Web World Model (WWM) は「世界状態と物理」が通常のWebコードで実装される中核となる。
リアルなウェブスタック上にWWMのスイートを構築し、現実の地理や架空の銀河探検家、ウェブスケールの百科事典や物語の世界、シミュレーションやゲームのような環境を基盤とする無限の旅行アトラスを構築します。
この結果から,ウェブスタック自体が世界モデルのスケーラブルな基盤として機能し,制御可能かつオープンな環境を実現することが示唆された。
論文 参考訳(メタデータ) (2025-12-29T18:31:45Z) - CodeClash: Benchmarking Goal-Oriented Software Engineering [63.65464283837602]
6つのアリーナで8つのLMを評価するために、1680のトーナメント(合計25,200ラウンド)を実行しました。
結果は,モデルが多様な開発スタイルを示す一方で,戦略的推論の基本的制約を共有していることを明らかにする。
私たちはCodeClashをオープンソースにして、自律的でゴール指向のコード開発の研究を進めています。
論文 参考訳(メタデータ) (2025-11-02T07:42:51Z) - OMNI-EPIC: Open-endedness via Models of human Notions of Interestingness with Environments Programmed in Code [6.067502582087556]
オープンエンドおよびAI生成アルゴリズムは、ますます複雑なタスクを無期限に生成し、解決することを目的としている。
この壮大なビジョンを達成するためには、学習は潜在的なタスクの膨大な範囲内で行われなければならない。
OMNI-EPICという新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-24T13:57:32Z) - A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond [84.95530356322621]
この調査は、コードインテリジェンスの発展に関する体系的なレビューを示す。
50以上の代表モデルとその変種、20以上のタスクのカテゴリ、および680以上の関連する広範な研究をカバーしている。
発達軌道の考察に基づいて、コードインテリジェンスとより広範なマシンインテリジェンスとの間の新たな相乗効果について検討する。
論文 参考訳(メタデータ) (2024-03-21T08:54:56Z) - Octopus: Embodied Vision-Language Programmer from Environmental Feedback [58.04529328728999]
身体視覚言語モデル(VLM)は多モード認識と推論において大きな進歩を遂げた。
このギャップを埋めるために、我々は、計画と操作を接続する媒体として実行可能なコード生成を使用する、具体化された視覚言語プログラマであるOctopusを紹介した。
Octopusは、1)エージェントの視覚的およびテキスト的タスクの目的を正確に理解し、2)複雑なアクションシーケンスを定式化し、3)実行可能なコードを生成するように設計されている。
論文 参考訳(メタデータ) (2023-10-12T17:59:58Z) - Mastering Diverse Domains through World Models [43.382115013586535]
本稿では,150以上のタスクにまたがる特殊メソッドを1つの構成で高速化するDreamerV3を提案する。
Dreamerは、Minecraftのダイヤモンドを人間のデータやカリキュラムなしでゼロから収集する最初のアルゴリズムだ。
論文 参考訳(メタデータ) (2023-01-10T18:12:16Z) - WILD-SCAV: Benchmarking FPS Gaming AI on Unity3D-based Environments [5.020816812380825]
深部強化学習(RL)の最近の進歩は,シミュレーション環境における複雑な意思決定能力を示している。
しかしながら、これらは、トレーニングやテストが行われる環境の複雑さやバリエーションが欠如しているため、より複雑な問題はほとんどありません。
我々は,このギャップを埋めるために,3次元オープンワールドFPSゲームに基づく,強力でオープンな環境であるWILD-SCAVを開発した。
エージェントは3D環境を理解し、ナビゲートし、計画し、人間のような方法で競争し、協力することができる。
論文 参考訳(メタデータ) (2022-10-14T13:39:41Z) - MineDojo: Building Open-Ended Embodied Agents with Internet-Scale
Knowledge [70.47759528596711]
私たちは、人気のMinecraftゲーム上に構築された新しいフレームワークであるMineDojoを紹介します。
本稿では,学習報酬関数として,大規模な事前学習ビデオ言語モデルを活用する新しいエージェント学習アルゴリズムを提案する。
我々のエージェントは、手動で設計した密なシェーピング報酬なしで、自由形式の言語で指定された様々なオープンエンドタスクを解くことができる。
論文 参考訳(メタデータ) (2022-06-17T15:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。