論文の概要: FoMo Rewards: Can we cast foundation models as reward functions?
- arxiv url: http://arxiv.org/abs/2312.03881v1
- Date: Wed, 6 Dec 2023 20:11:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 16:50:12.898098
- Title: FoMo Rewards: Can we cast foundation models as reward functions?
- Title(参考訳): FoMo Rewards: ファンデーションモデルを報酬関数としてキャストできますか?
- Authors: Ekdeep Singh Lubana, Johann Brehmer, Pim de Haan, Taco Cohen
- Abstract要約: 本稿では,市販のビジョンモデルと大規模言語モデルとを結合する単純なパイプラインを提案する。
この一般確率関数は、報奨関数から理想的に期待される特性を示す。
- 参考スコア(独自算出の注目度): 23.34751143771924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the viability of casting foundation models as generic reward
functions for reinforcement learning. To this end, we propose a simple pipeline
that interfaces an off-the-shelf vision model with a large language model.
Specifically, given a trajectory of observations, we infer the likelihood of an
instruction describing the task that the user wants an agent to perform. We
show that this generic likelihood function exhibits the characteristics ideally
expected from a reward function: it associates high values with the desired
behaviour and lower values for several similar, but incorrect policies.
Overall, our work opens the possibility of designing open-ended agents for
interactive tasks via foundation models.
- Abstract(参考訳): 強化学習のための汎用報酬関数としての鋳造基礎モデルの有効性について検討する。
そこで本研究では,既存の視覚モデルと大規模言語モデルとをインターフェースするシンプルなパイプラインを提案する。
具体的には、観察の軌跡から、ユーザがエージェントに実行させたいと思うタスクを記述する命令の可能性を推測する。
提案手法は,報酬関数から理想的に期待される特徴を示す。高値と望ましい振る舞いを関連付け,いくつかの類似するが不正確なポリシーに対して低い値を関連付ける。
全体として、我々の研究は、基礎モデルを通して対話的なタスクのためのオープンエンドエージェントを設計する可能性を開く。
関連論文リスト
- OCALM: Object-Centric Assessment with Language Models [33.10137796492542]
本稿では,言語モデルを用いたオブジェクト指向アセスメント(OCALM)を提案し,強化学習エージェントに対して本質的に解釈可能な報酬関数を導出する。
OCALMは、リレーショナルな概念に焦点を当てた報酬関数を導出するために、言語モデルの広範な世界知識を使用する。
論文 参考訳(メタデータ) (2024-06-24T15:57:48Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z) - CHORUS: Foundation Models for Unified Data Discovery and Exploration [6.85448651843431]
基礎モデルは,データ発見およびデータ探索領域に適用可能であることを示す。
基礎モデルに基づくアプローチは,タスク固有のモデルよりも優れており,その技術の現状を示す。
これは、異なるデータ管理タスクを基礎モデルの下で統一できる将来的な方向性を示唆している。
論文 参考訳(メタデータ) (2023-06-16T03:58:42Z) - Chain-of-Skills: A Configurable Model for Open-domain Question Answering [79.8644260578301]
検索モデルは、現実世界の知識集約的なタスクに欠かせない要素である。
最近の研究はカスタマイズされたメソッドに焦点を合わせ、モデルの転送可能性とスケーラビリティを制限している。
本稿では,各モジュールがデータセット間で再利用可能なキースキルに対応するモジュールレトリバーを提案する。
論文 参考訳(メタデータ) (2023-05-04T20:19:39Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - RewardsOfSum: Exploring Reinforcement Learning Rewards for Summarisation [7.0471949371778795]
本稿では,抽象的な要約作業に対する2つの報酬関数を提案する。
最初の関数はRwB-Hingeと呼ばれ、勾配更新のサンプルを動的に選択する。
第2の機能はRISKと呼ばれ、強力な候補者の小さなプールを利用して報酬を知らせる。
論文 参考訳(メタデータ) (2021-06-08T03:30:50Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Self-Supervised Exploration via Latent Bayesian Surprise [4.088019409160893]
本研究では,強化学習に固有の報酬として,好奇心に基づくボーナスを提案する。
環境調査の観点から、エージェントの性能を計測し、モデルを幅広く評価します。
我々のモデルは安価で経験的にいくつかの問題に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2021-04-15T14:40:16Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。