論文の概要: InnateCoder: Learning Programmatic Options with Foundation Models
- arxiv url: http://arxiv.org/abs/2505.12508v1
- Date: Sun, 18 May 2025 17:57:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.274904
- Title: InnateCoder: Learning Programmatic Options with Foundation Models
- Title(参考訳): InnateCoder: 基礎モデルによるプログラムオプションの学習
- Authors: Rubens O. Moraes, Quazi Asif Sadmine, Hendrik Baier, Levi H. S. Lelis,
- Abstract要約: InnateCoderは、ファンデーションモデルにエンコードされた人間の知識を活用してプログラムポリシーを提供するシステムである。
学習オプションに対する既存のアプローチとは対照的に、InnateCoderは、ゼロショット設定で基礎モデルに符号化された一般的な人間の知識から学習する。
InnateCoderは、オプションを使ったり、経験から学んだりしないシステムのバージョンよりも、よりサンプル効率が高いことを示す。
- 参考スコア(独自算出の注目度): 13.218260503808056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Outside of transfer learning settings, reinforcement learning agents start their learning process from a clean slate. As a result, such agents have to go through a slow process to learn even the most obvious skills required to solve a problem. In this paper, we present InnateCoder, a system that leverages human knowledge encoded in foundation models to provide programmatic policies that encode "innate skills" in the form of temporally extended actions, or options. In contrast to existing approaches to learning options, InnateCoder learns them from the general human knowledge encoded in foundation models in a zero-shot setting, and not from the knowledge the agent gains by interacting with the environment. Then, InnateCoder searches for a programmatic policy by combining the programs encoding these options into larger and more complex programs. We hypothesized that InnateCoder's way of learning and using options could improve the sampling efficiency of current methods for learning programmatic policies. Empirical results in MicroRTS and Karel the Robot support our hypothesis, since they show that InnateCoder is more sample efficient than versions of the system that do not use options or learn them from experience.
- Abstract(参考訳): 移行学習設定以外では、強化学習エージェントはクリーンスレートから学習プロセスを開始する。
その結果、そのようなエージェントは、問題の解決に必要な最も明白なスキルを学習するために、遅いプロセスを通過しなければなりません。
本稿では,基本モデルに符号化された人間の知識を活用するシステムであるInnateCoderについて,時間的に拡張されたアクションやオプションの形式で「自然スキル」を符号化するプログラム的ポリシーを提案する。
学習オプションに対する既存のアプローチとは対照的に、InnateCoderは、エージェントが環境と対話することによって得られる知識からではなく、ゼロショット設定で基礎モデルに符号化された一般的な人間の知識から学習する。
次に、InnateCoderは、これらのオプションをエンコードするプログラムを、より大きくより複雑なプログラムに組み合わせることで、プログラムポリシーを検索する。
InnateCoderの学習方法とオプションの使用法は,プログラムポリシー学習における現在の手法のサンプリング効率を向上させることができると仮定した。
MicroRTSとKarel the Robotの実証的な結果は、InnateCoderはオプションを使用していないシステムや経験から学ぶシステムよりも、よりサンプル効率が高いことを示しているため、私たちの仮説を支持している。
関連論文リスト
- Zero-Shot Code Representation Learning via Prompt Tuning [6.40875582886359]
コード表現を学習するためのゼロショットアプローチであるZecolerを提案する。
Zecolerは、事前訓練されたプログラミング言語モデルの上に構築されている。
我々はZecolerを,コードクローン検出,コード検索,メソッド名予測,コード要約,コード生成を含む5つのコードインテリジェンスタスクで評価する。
論文 参考訳(メタデータ) (2024-04-13T09:47:07Z) - TransformCode: A Contrastive Learning Framework for Code Embedding via Subtree Transformation [9.477734501499274]
コード埋め込みを対照的な学習方法で学習する新しいフレームワークであるTransformCodeを提案する。
我々のフレームワークはエンコーダに依存しない言語に依存しないので、どんなエンコーダモデルでも活用でき、どんなプログラミング言語でも扱える。
論文 参考訳(メタデータ) (2023-11-10T09:05:23Z) - Learning of Generalizable and Interpretable Knowledge in Grid-Based
Reinforcement Learning Environments [5.217870815854702]
本稿では,強化学習ポリシーを模倣するプログラム合成を提案する。
我々は,グリッド環境における概念学習に最先端のプログラム合成システムDreamCoderを適用した。
論文 参考訳(メタデータ) (2023-09-07T11:46:57Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - TransCoder: Towards Unified Transferable Code Representation Learning Inspired by Human Skills [31.75121546422898]
本稿では,コード表現学習のためのTransCoderについて述べる。
我々は、メタラーナーとして調整可能なプレフィックスエンコーダを用いて、クロスタスクおよびクロス言語変換可能な知識をキャプチャする。
本手法は, 各種コード関連タスクの性能向上と相互強化の促進に寄与する。
論文 参考訳(メタデータ) (2023-05-23T06:59:22Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Learning Multi-Objective Curricula for Deep Reinforcement Learning [55.27879754113767]
深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)手法が提案されている。
本稿では,多目的だがコヒーレントなカリキュラムを作成するための統合された自動カリキュラム学習フレームワークを提案する。
既存の手設計のカリキュラムパラダイムに加えて,抽象カリキュラムを学習するためのフレキシブルなメモリ機構を設計する。
論文 参考訳(メタデータ) (2021-10-06T19:30:25Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。