Fugu-MT 論文翻訳(概要): SENSEI: Semantic Exploration Guided by Foundation Models to Learn Versatile World Models

論文の概要: SENSEI: Semantic Exploration Guided by Foundation Models to Learn Versatile World Models

arxiv url: http://arxiv.org/abs/2503.01584v1
Date: Mon, 03 Mar 2025 14:26:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:38.038414
Title: SENSEI: Semantic Exploration Guided by Foundation Models to Learn Versatile World Models
Title（参考訳）: SENSEI:世界モデルを学ぶための基礎モデルによるセマンティック探索
Authors: Cansu Sancaktar, Christian Gumbsch, Andrii Zadaianchuk, Pavel Kolev, Georg Martius,
Abstract要約: 固有のモチベーションは、外部のタスクベースの報酬から探索を分離しようとする。 SENSEIはモデルに基づくRLエージェントに意味論的行動の本質的な動機を与えるためのフレームワークである。
参考スコア（独自算出の注目度）: 22.96777963013918
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Exploration is a cornerstone of reinforcement learning (RL). Intrinsic motivation attempts to decouple exploration from external, task-based rewards. However, established approaches to intrinsic motivation that follow general principles such as information gain, often only uncover low-level interactions. In contrast, children's play suggests that they engage in meaningful high-level behavior by imitating or interacting with their caregivers. Recent work has focused on using foundation models to inject these semantic biases into exploration. However, these methods often rely on unrealistic assumptions, such as language-embedded environments or access to high-level actions. We propose SEmaNtically Sensible ExploratIon (SENSEI), a framework to equip model-based RL agents with an intrinsic motivation for semantically meaningful behavior. SENSEI distills a reward signal of interestingness from Vision Language Model (VLM) annotations, enabling an agent to predict these rewards through a world model. Using model-based RL, SENSEI trains an exploration policy that jointly maximizes semantic rewards and uncertainty. We show that in both robotic and video game-like simulations SENSEI discovers a variety of meaningful behaviors from image observations and low-level actions. SENSEI provides a general tool for learning from foundation model feedback, a crucial research direction, as VLMs become more powerful.
Abstract（参考訳）: 探索は強化学習(RL)の基盤となる。固有のモチベーションは、外部のタスクベースの報酬から探索を分離しようとする。しかし、情報獲得のような一般的な原則に従う本質的なモチベーションに対して確立されたアプローチは、しばしば低レベルの相互作用を明らかにするだけである。対照的に、子どもの遊びは、介護者と模倣したり相互作用したりすることで、意味のあるハイレベルな行動に関与することを示唆している。最近の研究は、基礎モデルを使用してこれらの意味バイアスを探索に注入することに焦点を当てている。しかし、これらの手法は言語に埋め込まれた環境やハイレベルな行動へのアクセスといった非現実的な仮定に依存していることが多い。本稿では,意味論的行動に本質的な動機を与えるモデルベースRLエージェントを装備するフレームワークであるSEmaNtically Sensible ExploratIon(SENSEI)を提案する。 SENSEIは視覚言語モデル(VLM)アノテーションから興味のある報酬信号を蒸留し、エージェントが世界モデルを通してこれらの報酬を予測することを可能にする。モデルベースのRLを用いて、SENSEIはセマンティック報酬と不確実性を共同で最大化する探索ポリシーを訓練する。 SENSEIは、ロボットゲームとビデオゲームのようなシミュレーションの両方において、画像観察と低レベルの動作から、さまざまな意味のある振る舞いを発見する。 SENSEIは、VLMがより強力になるにつれて、基礎モデルフィードバックから学ぶための一般的なツールを提供する。

関連論文リスト

SOLD: Slot Object-Centric Latent Dynamics Models for Relational Manipulation Learning from Pixels [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、新しいモデルに基づく強化学習アルゴリズムである。画素入力から教師なしの方法でオブジェクト中心のダイナミックスモデルを学習する。構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。
論文参考訳（メタデータ） (2024-10-11T14:03:31Z)
OCALM: Object-Centric Assessment with Language Models [33.10137796492542]
本稿では,言語モデルを用いたオブジェクト指向アセスメント(OCALM)を提案し,強化学習エージェントに対して本質的に解釈可能な報酬関数を導出する。 OCALMは、リレーショナルな概念に焦点を当てた報酬関数を導出するために、言語モデルの広範な世界知識を使用する。
論文参考訳（メタデータ） (2024-06-24T15:57:48Z)
Curricular Subgoals for Inverse Reinforcement Learning [21.038691420095525]
逆強化学習(IRL)は、専門家による実証から報酬関数を再構築し、政策学習を促進することを目的としている。既存のIRL法は主に、模倣者と専門家の軌跡の違いを最小限に抑えるために、グローバル報酬関数の学習に重点を置いている。エージェントの模倣を導くために,一タスクを複数の局所的なサブゴールで明示的に切り離す,Curricular Subgoal-based Inverse Reinforcement Learningフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-14T04:06:41Z)
Curious Exploration via Structured World Models Yields Zero-Shot Object Manipulation [19.840186443344]
そこで本研究では,制御ループに帰納バイアスを組み込む構造的世界モデルを用いて,サンプル効率の高い探索を実現することを提案する。提案手法は,早期にオブジェクトと対話し始める自由プレイ動作を生成し,時間とともにより複雑な動作を発達させる。
論文参考訳（メタデータ） (2022-06-22T22:08:50Z)
INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文参考訳（メタデータ） (2022-04-18T23:09:23Z)
Online reinforcement learning with sparse rewards through an active inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-04T10:03:36Z)
Generative Adversarial Reward Learning for Generalized Behavior Tendency Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文参考訳（メタデータ） (2021-05-03T13:14:25Z)
Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文参考訳（メタデータ） (2020-10-28T19:27:26Z)
Action and Perception as Divergence Minimization [43.75550755678525]
アクションパーセプション・ディバージェンス(Action Perception Divergence)は、エンボディエージェントの可能な目的関数の空間を分類するためのアプローチである。狭い目的から一般的な目的に到達するスペクトルを示す。これらのエージェントは、彼らの信念を世界と整合させるのに知覚を使い、行動を使って世界と信念を整合させる。
論文参考訳（メタデータ） (2020-09-03T16:52:46Z)
Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文参考訳（メタデータ） (2020-07-21T14:17:36Z)
Learning intuitive physics and one-shot imitation using state-action-prediction self-organizing maps [0.0]
人間は探索と模倣によって学び、世界の因果モデルを構築し、両方を使って新しいタスクを柔軟に解決する。このような特徴を生み出す単純だが効果的な教師なしモデルを提案する。エージェントがアクティブな推論スタイルで柔軟に解決する、複数の関連するが異なる1ショットの模倣タスクに対して、その性能を示す。
論文参考訳（メタデータ） (2020-07-03T12:29:11Z)
Mutual Information-based State-Control for Intrinsically Motivated Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文参考訳（メタデータ） (2020-02-05T19:21:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。