論文の概要: OCALM: Object-Centric Assessment with Language Models
- arxiv url: http://arxiv.org/abs/2406.16748v1
- Date: Mon, 24 Jun 2024 15:57:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 14:05:36.935299
- Title: OCALM: Object-Centric Assessment with Language Models
- Title(参考訳): OCALM:言語モデルを用いたオブジェクト指向評価
- Authors: Timo Kaufmann, Jannis Blüml, Antonia Wüst, Quentin Delfosse, Kristian Kersting, Eyke Hüllermeier,
- Abstract要約: 本稿では,言語モデルを用いたオブジェクト指向アセスメント(OCALM)を提案し,強化学習エージェントに対して本質的に解釈可能な報酬関数を導出する。
OCALMは、リレーショナルな概念に焦点を当てた報酬関数を導出するために、言語モデルの広範な世界知識を使用する。
- 参考スコア(独自算出の注目度): 33.10137796492542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Properly defining a reward signal to efficiently train a reinforcement learning (RL) agent is a challenging task. Designing balanced objective functions from which a desired behavior can emerge requires expert knowledge, especially for complex environments. Learning rewards from human feedback or using large language models (LLMs) to directly provide rewards are promising alternatives, allowing non-experts to specify goals for the agent. However, black-box reward models make it difficult to debug the reward. In this work, we propose Object-Centric Assessment with Language Models (OCALM) to derive inherently interpretable reward functions for RL agents from natural language task descriptions. OCALM uses the extensive world-knowledge of LLMs while leveraging the object-centric nature common to many environments to derive reward functions focused on relational concepts, providing RL agents with the ability to derive policies from task descriptions.
- Abstract(参考訳): 強化学習(RL)エージェントを効率的に訓練するための報奨信号の適切な定義は難しい課題である。
望ましい振る舞いが現れるようなバランスのとれた客観的関数の設計には、特に複雑な環境において専門的な知識が必要である。
人間のフィードバックから報酬を学び、あるいは大きな言語モデル(LLM)を使って報酬を直接提供することは有望な代替手段であり、非専門家がエージェントの目標を指定できるようにする。
しかし、ブラックボックスの報酬モデルでは報酬のデバッグが困難になる。
本研究では,言語モデルを用いたオブジェクト指向アセスメント(OCALM)を提案し,自然言語タスク記述からRLエージェントに対する固有解釈可能な報酬関数を導出する。
OCALMはLLMの広範な世界知識を使用し、多くの環境に共通するオブジェクト中心の性質を活用して、リレーショナルな概念に焦点を当てた報酬関数を導出し、RLエージェントにタスク記述からポリシーを導出する機能を提供する。
関連論文リスト
- Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - Visual Grounding for Object-Level Generalization in Reinforcement Learning [35.39214541324909]
自然言語命令に従うエージェントにとって、一般化は重要な課題である。
視覚言語モデル(VLM)を用いて視覚的グラウンド化を行い,その知識を強化学習に伝達する。
我々の本質的な報酬は、挑戦的なスキル学習のパフォーマンスを著しく向上させることを示す。
論文 参考訳(メタデータ) (2024-08-04T06:34:24Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Vision-Language Models as a Source of Rewards [68.52824755339806]
強化学習エージェントの報酬源として市販の視覚言語モデル(VLM)の有効性を検討する。
様々な言語目標の視覚的達成に対する報酬は、CLIPファミリーのモデルから導き出すことができ、様々な言語目標を達成するためのRLエージェントの訓練に使用されることを示す。
論文 参考訳(メタデータ) (2023-12-14T18:06:17Z) - Reward Design with Language Models [27.24197025688919]
強化学習におけるリワード設計(Reward design in reinforcement learning, RL)は、人間の望ましい行動の概念を特定することは、報酬関数や専門家によるデモンストレーションを必要とするため困難である。
代わりに、自然言語インターフェースを使って報酬を安く設計できますか?
本稿では,代用報酬関数として GPT-3 などの大規模言語モデル (LLM) を提案する。
論文 参考訳(メタデータ) (2023-02-27T22:09:35Z) - Guiding Pretraining in Reinforcement Learning with Large Language Models [133.32146904055233]
テキストコーパスからの背景知識を用いて探索を図形化する手法について述べる。
このメソッドはELLMと呼ばれ、言語モデルによって提案される目標を達成するエージェントに報酬を与える。
大規模な言語モデルの事前訓練を活用することで、ELLMはエージェントをループに人間を必要とせず、人間に有意義で、もっとも有用な行動へと導く。
論文 参考訳(メタデータ) (2023-02-13T21:16:03Z) - Logic-based Reward Shaping for Multi-Agent Reinforcement Learning [1.5483078145498084]
強化学習は、その環境から学び、観察された報酬を最大化するために探索に大きく依存する。
従来の作業では、タスクに基づいて報酬関数を合成する自動メカニズムを提供するために、オートマタとロジックベースの報酬整形と環境仮定を組み合わせた。
マルチエージェント強化学習における論理に基づく報酬形成は,様々なシナリオやタスクに対してどのように設計できるかを考察する。
論文 参考訳(メタデータ) (2022-06-17T16:30:27Z) - Reinforcement Learning Agent Training with Goals for Real World Tasks [3.747737951407512]
強化学習(RL)は、様々な制御、最適化、シーケンシャルな意思決定タスクを解決するための有望なアプローチである。
複雑な制御および最適化タスクのための仕様言語(Inkling Goal Specification)を提案する。
提案手法は現実世界のタスクを多種多様なタスクで指定するのに非常に容易であることを示す実験のセットを含む。
論文 参考訳(メタデータ) (2021-07-21T23:21:16Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。