Fugu-MT 論文翻訳(概要): Goals as Reward-Producing Programs

論文の概要: Goals as Reward-Producing Programs

arxiv url: http://arxiv.org/abs/2405.13242v2
Date: Thu, 30 May 2024 14:46:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 20:05:24.822260
Title: Goals as Reward-Producing Programs
Title（参考訳）: 逆転生産プログラムとしてのゴール
Authors: Guy Davidson, Graham Todd, Julian Togelius, Todd M. Gureckis, Brenden M. Lake,
Abstract要約: 本研究では,無限個の目標プログラム上での適合度関数を用いた目標生成モデルを構築した。モデルの内部のフィットネススコアは、プレイしやすく、人間らしく評価されたゲームを予測する。
参考スコア（独自算出の注目度）: 10.264374079059719
License: http://creativecommons.org/licenses/by/4.0/
Abstract: People are remarkably capable of generating their own goals, beginning with child's play and continuing into adulthood. Despite considerable empirical and computational work on goals and goal-oriented behavior, models are still far from capturing the richness of everyday human goals. Here, we bridge this gap by collecting a dataset of human-generated playful goals, modeling them as reward-producing programs, and generating novel human-like goals through program synthesis. Reward-producing programs capture the rich semantics of goals through symbolic operations that compose, add temporal constraints, and allow for program execution on behavioral traces to evaluate progress. To build a generative model of goals, we learn a fitness function over the infinite set of possible goal programs and sample novel goals with a quality-diversity algorithm. Human evaluators found that model-generated goals, when sampled from partitions of program space occupied by human examples, were indistinguishable from human-created games. We also discovered that our model's internal fitness scores predict games that are evaluated as more fun to play and more human-like.
Abstract（参考訳）: 人々は、子供の遊びから始まり、成人し続けながら、驚くほど独自の目標を生み出すことができる。目標と目標指向の行動に関する経験的および計算的な研究にもかかわらず、モデルは日々の人間の目標の豊かさを捉えるには程遠い。ここでは,人為的な遊び目標のデータセットを収集し,それを報酬生成プログラムとしてモデル化し,プログラム合成を通じて新たな人間的な目標を生成することにより,このギャップを埋める。リワード生成プログラムは、構成、時間的制約の追加、行動トレース上でプログラムの実行による進捗の評価を可能にする象徴的な操作を通じて、ゴールのリッチなセマンティクスをキャプチャする。目標生成モデルを構築するために、可能なゴールプログラムの無限集合上の適合関数を学習し、品質多様性アルゴリズムを用いて新しいゴールをサンプリングする。人間の評価者は、人間の例によって占有されるプログラム空間の分割からサンプルされたモデル生成目標が、人間が作成したゲームと区別できないことを発見した。また、我々のモデルの内部のフィットネススコアは、プレイしやすく、人間らしく評価されたゲームを予測することもわかりました。

関連論文リスト

Zero-Shot Offline Imitation Learning via Optimal Transport [21.548195072895517]
ゼロショットの模倣学習アルゴリズムは、テスト時にたった1つのデモから、目に見えない振る舞いを再現する。既存の実践的なアプローチでは、専門家のデモンストレーションを一連の目標と見なし、ハイレベルなゴールセレクタと低レベルなゴール条件のポリシーで模倣を可能にする。そこで本研究では,模倣学習に固有の占領目標を直接最適化することにより,この問題を緩和する新しい手法を提案する。
論文参考訳（メタデータ） (2024-10-11T12:10:51Z)
WANDR: Intention-guided Human Motion Generation [67.07028110459787]
我々は,アバターの初期ポーズとゴールの3D位置を取り,ゴール位置にエンドエフェクタ(抵抗)を配置する自然な人間の動きを生成するデータ駆動モデルであるWADRを紹介する。インテンションはエージェントをゴールに誘導し、サブゴールやモーションパス全体を定義することなく、新しい状況にインタラクティブに世代を適応させる。提案手法を広範に評価し,3次元目標に到達した自然および長期の動作と,見当たらない目標位置を生成できることを実証する。
論文参考訳（メタデータ） (2024-04-23T10:20:17Z)
Human Goal Recognition as Bayesian Inference: Investigating the Impact of Actions, Timing, and Goal Solvability [7.044125601403849]
ベイズフレームワークを用いて、ゴール認識における行動、タイミング、およびゴール解決可能性の役割を探求する。私たちの研究は、人間の目標認識に関する新たな洞察を提供し、より人間的なAIモデルに向けた一歩を踏み出します。
論文参考訳（メタデータ） (2024-02-16T08:55:23Z)
Augmenting Autotelic Agents with Large Language Models [24.16977502082188]
言語モデル拡張オートテリックエージェント(LMA3)を導入する。 LMA3は多様で抽象的で人間に関連する目標の表現、生成、学習をサポートする。 LMA3エージェントはタスクに依存しないテキストベースの環境において,多種多様なスキルを習得する。
論文参考訳（メタデータ） (2023-05-21T15:42:41Z)
Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文参考訳（メタデータ） (2022-11-16T16:26:48Z)
Discrete Factorial Representations as an Abstraction for Goal Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文参考訳（メタデータ） (2022-11-01T03:31:43Z)
Can Foundation Models Perform Zero-Shot Task Specification For Robot Manipulation? [54.442692221567796]
タスク仕様は、熟練していないエンドユーザの関与とパーソナライズされたロボットの採用に不可欠である。タスク仕様に対する広く研究されているアプローチは、目標を通じて、コンパクトな状態ベクトルまたは同じロボットシーンのゴールイメージを使用することである。そこで本研究では,人間の指定や使用が容易な目標仕様の代替的,より汎用的な形式について検討する。
論文参考訳（メタデータ） (2022-04-23T19:39:49Z)
It Takes Four to Tango: Multiagent Selfplay for Automatic Curriculum Generation [107.10235120286352]
汎用強化学習エージェントを効率的に訓練するには、ゴールカリキュラムの自動生成が必要である。自動ゴール生成フレームワークCuSPを提案する。本手法は,様々な制御タスクに対して,効率的な目標のカリキュラムを生成するのに有効であることを示す。
論文参考訳（メタデータ） (2022-02-22T01:23:23Z)
Human-Level Reinforcement Learning through Theory-Based Modeling, Exploration, and Planning [27.593497502386143]
理論に基づく強化学習は、人間のような直感的な理論を使って環境を探索しモデル化する。 EMPAと呼ばれるゲームプレイエージェントのアプローチをインスタンス化する。 EMPAは90のAtariスタイルのビデオゲームで人間の学習効率と一致します。
論文参考訳（メタデータ） (2021-07-27T01:38:13Z)
Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文参考訳（メタデータ） (2020-12-30T23:59:09Z)
Imagination-Augmented Deep Learning for Goal Recognition [0.0]
現在の目標認識研究における顕著な考え方は、計画コストの見積からエージェントが持つ可能性のある異なる目標まで、エージェントの目標の可能性を推測することである。本稿では,記号プランナを用いて計画コストのインサイトを計算し,深層ニューラルネットワークを想像力で拡張する手法を提案する。
論文参考訳（メタデータ） (2020-03-20T23:07:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。