論文の概要: Goals as Reward-Producing Programs
- arxiv url: http://arxiv.org/abs/2405.13242v2
- Date: Thu, 30 May 2024 14:46:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 20:05:24.822260
- Title: Goals as Reward-Producing Programs
- Title(参考訳): 逆転生産プログラムとしてのゴール
- Authors: Guy Davidson, Graham Todd, Julian Togelius, Todd M. Gureckis, Brenden M. Lake,
- Abstract要約: 本研究では,無限個の目標プログラム上での適合度関数を用いた目標生成モデルを構築した。
モデルの内部のフィットネススコアは、プレイしやすく、人間らしく評価されたゲームを予測する。
- 参考スコア(独自算出の注目度): 10.264374079059719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People are remarkably capable of generating their own goals, beginning with child's play and continuing into adulthood. Despite considerable empirical and computational work on goals and goal-oriented behavior, models are still far from capturing the richness of everyday human goals. Here, we bridge this gap by collecting a dataset of human-generated playful goals, modeling them as reward-producing programs, and generating novel human-like goals through program synthesis. Reward-producing programs capture the rich semantics of goals through symbolic operations that compose, add temporal constraints, and allow for program execution on behavioral traces to evaluate progress. To build a generative model of goals, we learn a fitness function over the infinite set of possible goal programs and sample novel goals with a quality-diversity algorithm. Human evaluators found that model-generated goals, when sampled from partitions of program space occupied by human examples, were indistinguishable from human-created games. We also discovered that our model's internal fitness scores predict games that are evaluated as more fun to play and more human-like.
- Abstract(参考訳): 人々は、子供の遊びから始まり、成人し続けながら、驚くほど独自の目標を生み出すことができる。
目標と目標指向の行動に関する経験的および計算的な研究にもかかわらず、モデルは日々の人間の目標の豊かさを捉えるには程遠い。
ここでは,人為的な遊び目標のデータセットを収集し,それを報酬生成プログラムとしてモデル化し,プログラム合成を通じて新たな人間的な目標を生成することにより,このギャップを埋める。
リワード生成プログラムは、構成、時間的制約の追加、行動トレース上でプログラムの実行による進捗の評価を可能にする象徴的な操作を通じて、ゴールのリッチなセマンティクスをキャプチャする。
目標生成モデルを構築するために、可能なゴールプログラムの無限集合上の適合関数を学習し、品質多様性アルゴリズムを用いて新しいゴールをサンプリングする。
人間の評価者は、人間の例によって占有されるプログラム空間の分割からサンプルされたモデル生成目標が、人間が作成したゲームと区別できないことを発見した。
また、我々のモデルの内部のフィットネススコアは、プレイしやすく、人間らしく評価されたゲームを予測することもわかりました。
関連論文リスト
- WANDR: Intention-guided Human Motion Generation [67.07028110459787]
我々は,アバターの初期ポーズとゴールの3D位置を取り,ゴール位置にエンドエフェクタ(抵抗)を配置する自然な人間の動きを生成するデータ駆動モデルであるWADRを紹介する。
インテンションはエージェントをゴールに誘導し、サブゴールやモーションパス全体を定義することなく、新しい状況にインタラクティブに世代を適応させる。
提案手法を広範に評価し,3次元目標に到達した自然および長期の動作と,見当たらない目標位置を生成できることを実証する。
論文 参考訳(メタデータ) (2024-04-23T10:20:17Z) - Human Goal Recognition as Bayesian Inference: Investigating the Impact
of Actions, Timing, and Goal Solvability [7.044125601403849]
ベイズフレームワークを用いて、ゴール認識における行動、タイミング、およびゴール解決可能性の役割を探求する。
私たちの研究は、人間の目標認識に関する新たな洞察を提供し、より人間的なAIモデルに向けた一歩を踏み出します。
論文 参考訳(メタデータ) (2024-02-16T08:55:23Z) - Identifying human values from goal models: An industrial case study [1.9634511545082014]
要件エンジニアリングにおける人的価値の無視は、ソフトウェアの取り込みと継続的な使用に負の影響をもたらす。
我々の研究は、感情目標と様々な利害関係者の役割を結びつけ、人間の価値のシュワルツ理論に基づいてそれらの価値を特定することによって、要求工学における先行研究を拡張した。
論文 参考訳(メタデータ) (2023-05-26T08:44:09Z) - Augmenting Autotelic Agents with Large Language Models [24.16977502082188]
言語モデル拡張オートテリックエージェント(LMA3)を導入する。
LMA3は多様で抽象的で人間に関連する目標の表現、生成、学習をサポートする。
LMA3エージェントはタスクに依存しないテキストベースの環境において,多種多様なスキルを習得する。
論文 参考訳(メタデータ) (2023-05-21T15:42:41Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Can Foundation Models Perform Zero-Shot Task Specification For Robot
Manipulation? [54.442692221567796]
タスク仕様は、熟練していないエンドユーザの関与とパーソナライズされたロボットの採用に不可欠である。
タスク仕様に対する広く研究されているアプローチは、目標を通じて、コンパクトな状態ベクトルまたは同じロボットシーンのゴールイメージを使用することである。
そこで本研究では,人間の指定や使用が容易な目標仕様の代替的,より汎用的な形式について検討する。
論文 参考訳(メタデータ) (2022-04-23T19:39:49Z) - It Takes Four to Tango: Multiagent Selfplay for Automatic Curriculum
Generation [107.10235120286352]
汎用強化学習エージェントを効率的に訓練するには、ゴールカリキュラムの自動生成が必要である。
自動ゴール生成フレームワークCuSPを提案する。
本手法は,様々な制御タスクに対して,効率的な目標のカリキュラムを生成するのに有効であることを示す。
論文 参考訳(メタデータ) (2022-02-22T01:23:23Z) - Procedure Planning in Instructional Videosvia Contextual Modeling and
Model-based Policy Learning [114.1830997893756]
本研究は,実生活ビデオにおける目標指向アクションを計画するモデルを学習することに焦点を当てる。
本研究では,ベイズ推論とモデルに基づく模倣学習を通して,人間の行動のモデル化を行う新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-05T01:06:53Z) - Human-Level Reinforcement Learning through Theory-Based Modeling,
Exploration, and Planning [27.593497502386143]
理論に基づく強化学習は、人間のような直感的な理論を使って環境を探索しモデル化する。
EMPAと呼ばれるゲームプレイエージェントのアプローチをインスタンス化する。
EMPAは90のAtariスタイルのビデオゲームで人間の学習効率と一致します。
論文 参考訳(メタデータ) (2021-07-27T01:38:13Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - Imagination-Augmented Deep Learning for Goal Recognition [0.0]
現在の目標認識研究における顕著な考え方は、計画コストの見積からエージェントが持つ可能性のある異なる目標まで、エージェントの目標の可能性を推測することである。
本稿では,記号プランナを用いて計画コストのインサイトを計算し,深層ニューラルネットワークを想像力で拡張する手法を提案する。
論文 参考訳(メタデータ) (2020-03-20T23:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。