論文の概要: Cracking the Code of Action: a Generative Approach to Affordances for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.17282v1
- Date: Thu, 24 Apr 2025 06:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.270995
- Title: Cracking the Code of Action: a Generative Approach to Affordances for Reinforcement Learning
- Title(参考訳): 行動規範を破る--強化学習のための行動規範の生成的アプローチ
- Authors: Lynn Cherif, Flemming Kondrup, David Venuto, Ankit Anand, Doina Precup, Khimya Khetarpal,
- Abstract要約: 本研究では,専門家の行動に限定的あるいは全くアクセスできない低データ体制について考察する。
我々は、Generative Affordances$(textbf$textttCoGA$)$として$textbfCodeを提案する。
エージェントが考慮しなければならないアクションの数を大幅に削減することで、MiniWob++ベンチマークで幅広いタスクを実演する。
- 参考スコア(独自算出の注目度): 33.790048240113165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agents that can autonomously navigate the web through a graphical user interface (GUI) using a unified action space (e.g., mouse and keyboard actions) can require very large amounts of domain-specific expert demonstrations to achieve good performance. Low sample efficiency is often exacerbated in sparse-reward and large-action-space environments, such as a web GUI, where only a few actions are relevant in any given situation. In this work, we consider the low-data regime, with limited or no access to expert behavior. To enable sample-efficient learning, we explore the effect of constraining the action space through $\textit{intent-based affordances}$ -- i.e., considering in any situation only the subset of actions that achieve a desired outcome. We propose $\textbf{Code as Generative Affordances}$ $(\textbf{$\texttt{CoGA}$})$, a method that leverages pre-trained vision-language models (VLMs) to generate code that determines affordable actions through implicit intent-completion functions and using a fully-automated program generation and verification pipeline. These programs are then used in-the-loop of a reinforcement learning agent to return a set of affordances given a pixel observation. By greatly reducing the number of actions that an agent must consider, we demonstrate on a wide range of tasks in the MiniWob++ benchmark that: $\textbf{1)}$ $\texttt{CoGA}$ is orders of magnitude more sample efficient than its RL agent, $\textbf{2)}$ $\texttt{CoGA}$'s programs can generalize within a family of tasks, and $\textbf{3)}$ $\texttt{CoGA}$ performs better or on par compared with behavior cloning when a small number of expert demonstrations is available.
- Abstract(参考訳): 統一されたアクション空間(例えばマウスやキーボードのアクション)を使用してグラフィカルなユーザインターフェース(GUI)を介して、Webを自律的にナビゲートできるエージェントは、優れたパフォーマンスを達成するために、ドメイン固有の専門的なデモンストレーションを非常に多く必要とします。
サンプル効率の低さは、Web GUIのようなスパース・リワードと大アクションスペース環境においてしばしば悪化する。
本研究では,専門家の行動に限定的あるいは全くアクセスできない低データ体制について考察する。
サンプル効率の学習を可能にするために、我々は、望まれる結果を達成するアクションのサブセットのみを考慮して、$\textit{intent-based affordances}$ -- を通じてアクション空間を制約する効果を探求する。
我々は、事前学習された視覚言語モデル(VLM)を活用して、暗黙のインテント補完機能と完全に自動化されたプログラム生成と検証パイプラインを使用して、安価なアクションを決定するコードを生成する方法である$(\textbf{$\textt{CoGA}$})$を提案する。
これらのプログラムは、強化学習エージェントのループ内で使用され、ピクセル観察によって与えられた余裕を返却する。
$\textbf{1)}$ $\texttt{CoGA}$はRLエージェントよりもはるかに効率的なサンプルのオーダーである $\textbf{2”$ $\texttt{CoGA}$のプログラムはタスクのファミリー内で一般化でき、$\textbf{3}$$\texttt{CoGA}$は、少数の専門家デモが利用可能であれば、より良く、または同等に振舞うことができる。
関連論文リスト
- YOLOE: Real-Time Seeing Anything [64.35836518093342]
YOLOEは、様々なオープンプロンプト機構をまたいだ検出とセグメンテーションを、単一の高効率モデルに統合する。
YOLOEの例外的なゼロショット性能と高い推論効率と訓練コストの低い転送性。
論文 参考訳(メタデータ) (2025-03-10T15:42:59Z) - Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。
また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。
我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文 参考訳(メタデータ) (2025-02-07T15:57:56Z) - On the ERM Principle in Meta-Learning [35.32637037177801]
1タスクあたりのサンプル数が少ないことは、学習を成功させるのに十分であることを示す。
また、各$varepsilon$に対して、$varepsilon$のエラーを達成するためにタスク毎の例がいくつ必要かを特定します。
この設定は、コンテキスト内学習、ハイパーネットワーク、学習から学習への学習など、現代の多くの問題に適用できる。
論文 参考訳(メタデータ) (2024-11-26T21:27:14Z) - RT-Affordance: Affordances are Versatile Intermediate Representations for Robot Manipulation [52.14638923430338]
本稿では,タスクの重要段階においてロボットのポーズを捉えた割安条件の条件付けについて提案する。
RT-Affordanceという手法は階層モデルであり,まずタスク言語が与えられた割当計画を提案する。
RT-Affordanceが既存手法の性能を50%以上上回る新しいタスク群を示す。
論文 参考訳(メタデータ) (2024-11-05T01:02:51Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z) - Active Representation Learning for General Task Space with Applications
in Robotics [44.36398212117328]
本稿では,テキスト対話型表現学習のためのアルゴリズムフレームワークを提案する。
この枠組みの下では、双線型および特徴ベースの非線形ケースから一般的な非線形ケースまで、いくつかのインスタンス化を提供する。
我々のアルゴリズムは平均で20%-70%のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-15T08:27:50Z) - FAMO: Fast Adaptive Multitask Optimization [48.59232177073481]
本稿では,動的重み付け手法であるFast Adaptive Multitask Optimization FAMOを導入する。
この結果から,FAMOは最先端の勾配操作技術に匹敵する,あるいは優れた性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-06T15:39:54Z) - Improved Active Multi-Task Representation Learning via Lasso [44.607652031235716]
本稿では,L1-regularized-relevance-based(nu1$)戦略の優位性を示す。
また、サンプルコストに敏感な設定で$nu1$ベースの戦略の可能性を特徴付けます。
論文 参考訳(メタデータ) (2023-06-05T03:08:29Z) - On the Sample Complexity of Representation Learning in Multi-task
Bandits with Global and Local structure [77.60508571062958]
マルチタスク・バンディット問題に対する最適アーム学習の複雑さについて検討した。
アームは2つのコンポーネントで構成されます。1つはタスク間で共有され(表現と呼ばれます)、もう1つはタスク固有のもの(予測器と呼ばれます)です。
サンプルの複雑さが下界に近づき、最大で$H(Glog(delta_G)+ Xlog(delta_H))$でスケールするアルゴリズムOSRL-SCを考案する。
論文 参考訳(メタデータ) (2022-11-28T08:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。