論文の概要: Cracking the Code of Action: a Generative Approach to Affordances for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.17282v1
- Date: Thu, 24 Apr 2025 06:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.270995
- Title: Cracking the Code of Action: a Generative Approach to Affordances for Reinforcement Learning
- Title(参考訳): 行動規範を破る--強化学習のための行動規範の生成的アプローチ
- Authors: Lynn Cherif, Flemming Kondrup, David Venuto, Ankit Anand, Doina Precup, Khimya Khetarpal,
- Abstract要約: 本研究では,専門家の行動に限定的あるいは全くアクセスできない低データ体制について考察する。
我々は、Generative Affordances$(textbf$textttCoGA$)$として$textbfCodeを提案する。
エージェントが考慮しなければならないアクションの数を大幅に削減することで、MiniWob++ベンチマークで幅広いタスクを実演する。
- 参考スコア(独自算出の注目度): 33.790048240113165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agents that can autonomously navigate the web through a graphical user interface (GUI) using a unified action space (e.g., mouse and keyboard actions) can require very large amounts of domain-specific expert demonstrations to achieve good performance. Low sample efficiency is often exacerbated in sparse-reward and large-action-space environments, such as a web GUI, where only a few actions are relevant in any given situation. In this work, we consider the low-data regime, with limited or no access to expert behavior. To enable sample-efficient learning, we explore the effect of constraining the action space through $\textit{intent-based affordances}$ -- i.e., considering in any situation only the subset of actions that achieve a desired outcome. We propose $\textbf{Code as Generative Affordances}$ $(\textbf{$\texttt{CoGA}$})$, a method that leverages pre-trained vision-language models (VLMs) to generate code that determines affordable actions through implicit intent-completion functions and using a fully-automated program generation and verification pipeline. These programs are then used in-the-loop of a reinforcement learning agent to return a set of affordances given a pixel observation. By greatly reducing the number of actions that an agent must consider, we demonstrate on a wide range of tasks in the MiniWob++ benchmark that: $\textbf{1)}$ $\texttt{CoGA}$ is orders of magnitude more sample efficient than its RL agent, $\textbf{2)}$ $\texttt{CoGA}$'s programs can generalize within a family of tasks, and $\textbf{3)}$ $\texttt{CoGA}$ performs better or on par compared with behavior cloning when a small number of expert demonstrations is available.
- Abstract(参考訳): 統一されたアクション空間(例えばマウスやキーボードのアクション)を使用してグラフィカルなユーザインターフェース(GUI)を介して、Webを自律的にナビゲートできるエージェントは、優れたパフォーマンスを達成するために、ドメイン固有の専門的なデモンストレーションを非常に多く必要とします。
サンプル効率の低さは、Web GUIのようなスパース・リワードと大アクションスペース環境においてしばしば悪化する。
本研究では,専門家の行動に限定的あるいは全くアクセスできない低データ体制について考察する。
サンプル効率の学習を可能にするために、我々は、望まれる結果を達成するアクションのサブセットのみを考慮して、$\textit{intent-based affordances}$ -- を通じてアクション空間を制約する効果を探求する。
我々は、事前学習された視覚言語モデル(VLM)を活用して、暗黙のインテント補完機能と完全に自動化されたプログラム生成と検証パイプラインを使用して、安価なアクションを決定するコードを生成する方法である$(\textbf{$\textt{CoGA}$})$を提案する。
これらのプログラムは、強化学習エージェントのループ内で使用され、ピクセル観察によって与えられた余裕を返却する。
$\textbf{1)}$ $\texttt{CoGA}$はRLエージェントよりもはるかに効率的なサンプルのオーダーである $\textbf{2”$ $\texttt{CoGA}$のプログラムはタスクのファミリー内で一般化でき、$\textbf{3}$$\texttt{CoGA}$は、少数の専門家デモが利用可能であれば、より良く、または同等に振舞うことができる。
関連論文リスト
- AnyPos: Automated Task-Agnostic Actions for Bimanual Manipulation [24.199522837278128]
本稿では,タスク固有の条件からアクション実行を分離するタスク非依存のアクションパラダイムを提案する。
ATARAはスケーラブルなセルフ教師付きフレームワークで、人間の遠隔操作と比較して30倍以上のコレクションを高速化する。
我々はArm-Decoupled EstimationとDirection-Aware Decoderを備えた逆動的モデルであるAnyPosを提案する。
論文 参考訳(メタデータ) (2025-07-17T03:48:57Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [55.044159987218436]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - FLARE: Robot Learning with Implicit World Modeling [87.81846091038676]
$textbfFLARE$は、予測潜在世界モデリングをロボットポリシー学習に統合する。
$textbfFLARE$は最先端のパフォーマンスを実現し、これまでのポリシー学習のベースラインを最大26%上回っている。
この結果は、暗黙の世界モデリングと高周波ロボット制御を組み合わせた汎用的でスケーラブルなアプローチとして$textbfFLARE$を確立した。
論文 参考訳(メタデータ) (2025-05-21T15:33:27Z) - H$^3$DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning [25.65324419553667]
我々は,視覚的特徴と行動生成の統合を強化するために,階層構造を明示的に組み込んだ新しいビジュモータ学習フレームワークである$textbfTriply-Hierarchical Diffusion Policy(textbfH$mathbf3$DP)を紹介した。
大規模な実験では、H$3$DPは$mathbf+27.5%の平均相対的な改善を$mathbf44$のシミュレーションタスクで達成し、$mathbf4$の挑戦的な実世界の操作タスクで優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-12T17:59:43Z) - YOLOE: Real-Time Seeing Anything [64.35836518093342]
YOLOEは、様々なオープンプロンプト機構をまたいだ検出とセグメンテーションを、単一の高効率モデルに統合する。
YOLOEの例外的なゼロショット性能と高い推論効率と訓練コストの低い転送性。
論文 参考訳(メタデータ) (2025-03-10T15:42:59Z) - Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。
また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。
我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文 参考訳(メタデータ) (2025-02-07T15:57:56Z) - On the ERM Principle in Meta-Learning [35.32637037177801]
1タスクあたりのサンプル数が少ないことは、学習を成功させるのに十分であることを示す。
また、各$varepsilon$に対して、$varepsilon$のエラーを達成するためにタスク毎の例がいくつ必要かを特定します。
この設定は、コンテキスト内学習、ハイパーネットワーク、学習から学習への学習など、現代の多くの問題に適用できる。
論文 参考訳(メタデータ) (2024-11-26T21:27:14Z) - Provably Efficient Action-Manipulation Attack Against Continuous Reinforcement Learning [49.48615590763914]
我々は,モンテカルロ木探索法を用いて効率的な行動探索と操作を行うLCBTというブラックボックス攻撃アルゴリズムを提案する。
提案手法は, DDPG, PPO, TD3の3つの攻撃的アルゴリズムに対して, 連続的な設定で実行し, 攻撃性能が期待できることを示す。
論文 参考訳(メタデータ) (2024-11-20T08:20:29Z) - RT-Affordance: Affordances are Versatile Intermediate Representations for Robot Manipulation [52.14638923430338]
本稿では,タスクの重要段階においてロボットのポーズを捉えた割安条件の条件付けについて提案する。
RT-Affordanceという手法は階層モデルであり,まずタスク言語が与えられた割当計画を提案する。
RT-Affordanceが既存手法の性能を50%以上上回る新しいタスク群を示す。
論文 参考訳(メタデータ) (2024-11-05T01:02:51Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z) - Active Representation Learning for General Task Space with Applications
in Robotics [44.36398212117328]
本稿では,テキスト対話型表現学習のためのアルゴリズムフレームワークを提案する。
この枠組みの下では、双線型および特徴ベースの非線形ケースから一般的な非線形ケースまで、いくつかのインスタンス化を提供する。
我々のアルゴリズムは平均で20%-70%のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-15T08:27:50Z) - FAMO: Fast Adaptive Multitask Optimization [48.59232177073481]
本稿では,動的重み付け手法であるFast Adaptive Multitask Optimization FAMOを導入する。
この結果から,FAMOは最先端の勾配操作技術に匹敵する,あるいは優れた性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-06T15:39:54Z) - Improved Active Multi-Task Representation Learning via Lasso [44.607652031235716]
本稿では,L1-regularized-relevance-based(nu1$)戦略の優位性を示す。
また、サンプルコストに敏感な設定で$nu1$ベースの戦略の可能性を特徴付けます。
論文 参考訳(メタデータ) (2023-06-05T03:08:29Z) - On the Sample Complexity of Representation Learning in Multi-task
Bandits with Global and Local structure [77.60508571062958]
マルチタスク・バンディット問題に対する最適アーム学習の複雑さについて検討した。
アームは2つのコンポーネントで構成されます。1つはタスク間で共有され(表現と呼ばれます)、もう1つはタスク固有のもの(予測器と呼ばれます)です。
サンプルの複雑さが下界に近づき、最大で$H(Glog(delta_G)+ Xlog(delta_H))$でスケールするアルゴリズムOSRL-SCを考案する。
論文 参考訳(メタデータ) (2022-11-28T08:40:12Z) - A Provably Efficient Sample Collection Strategy for Reinforcement
Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文 参考訳(メタデータ) (2020-07-13T15:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。