Fugu-MT 論文翻訳(概要): Hyper-Universal Policy Approximation: Learning to Generate Actions from a Single Image using Hypernets

論文の概要: Hyper-Universal Policy Approximation: Learning to Generate Actions from a Single Image using Hypernets

arxiv url: http://arxiv.org/abs/2207.03593v1
Date: Thu, 7 Jul 2022 21:42:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-14 11:24:09.914533
Title: Hyper-Universal Policy Approximation: Learning to Generate Actions from a Single Image using Hypernets
Title（参考訳）: ハイパーユニバーサルポリシー近似:ハイパーネットを用いた単一画像からのアクション生成の学習
Authors: Dimitrios C. Gklezakos, Rishi Jha, Rajesh P. N. Rao
Abstract要約: ユニバーサル・ポリシー・ファンクション(UPF、Universal Policy Functions)は、新しい、目に見えない環境に一般化するステート・ツー・アクション・マッピングである。単一画像からタスクと環境条件の小さなポリシーネットワークを生成するハイパーネットワークベースのモデルであるHyper-Universal Policy Approximator (HUPA)を提案する。以上の結果から,HUPAsは,サイズに制約のある生成ポリシに対して,埋め込みベースの代替手段を著しく上回っていることがわかった。
参考スコア（独自算出の注目度）: 1.3535770763481902
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Inspired by Gibson's notion of object affordances in human vision, we ask the question: how can an agent learn to predict an entire action policy for a novel object or environment given only a single glimpse? To tackle this problem, we introduce the concept of Universal Policy Functions (UPFs) which are state-to-action mappings that generalize not only to new goals but most importantly to novel, unseen environments. Specifically, we consider the problem of efficiently learning such policies for agents with limited computational and communication capacity, constraints that are frequently encountered in edge devices. We propose the Hyper-Universal Policy Approximator (HUPA), a hypernetwork-based model to generate small task- and environment-conditional policy networks from a single image, with good generalization properties. Our results show that HUPAs significantly outperform an embedding-based alternative for generated policies that are size-constrained. Although this work is restricted to a simple map-based navigation task, future work includes applying the principles behind HUPAs to learning more general affordances for objects and environments.
Abstract（参考訳）: 人間の視覚におけるオブジェクトの余裕というギブソンの概念に触発されて、エージェントはどのようにして新しいオブジェクトや環境に対するアクションポリシー全体を予測することができるのか? この問題に取り組むために,我々は,新しい目標だけでなく,最も重要で目に見えない新しい環境に一般化した,状態対行動マッピングであるユニバーサル・ポリシー・ファンクション(upfs)の概念を紹介する。具体的には,エッジデバイスで頻繁に発生する制約である計算能力や通信能力の制限のあるエージェントに対して,そのようなポリシーを効率的に学習する問題を考える。本稿では,単一画像からタスクと環境条件のポリシーネットワークを生成するハイパーネットワークベースのモデルであるHyper-Universal Policy Approximator (HUPA)を提案する。以上の結果から,HUPAsは,サイズに制約のある生成ポリシに対して,埋め込みベースの代替手段を著しく上回っていることがわかった。この作業は単純な地図ベースのナビゲーションタスクに限定されるが、将来の作業には、HUPAの背後にある原則を適用して、オブジェクトや環境のより一般的な余裕を学習することが含まれる。

関連論文リスト

Customize Multi-modal RAI Guardrails with Precedent-based predictions [55.63757336900865]
マルチモーダルガードレールは、ユーザ定義ポリシーに基づいて、画像コンテンツを効果的にフィルタリングする必要がある。既存の微調整手法は、通常、事前に定義されたポリシーの条件予測を行う。本稿では、入力に類似した先行データポイントの推論過程である「先行情報」に対する条件モデルの判断を提案する。
論文参考訳（メタデータ） (2025-07-28T03:45:34Z)
Dense Policy: Bidirectional Autoregressive Learning of Actions [51.60428100831717]
本稿では,行動予測における自己回帰的政策の新たなパラダイムを確立するために,Dense Policyと呼ばれる双方向拡張学習手法を提案する。軽量なエンコーダのみのアーキテクチャを使用して、アクションシーケンスを初期単一フレームからターゲットシーケンスへ粗い方法で反復的に展開する。実験により、我々の密集した政策は自己回帰学習能力に優れており、既存の全体的生成ポリシーを超越できることが示された。
論文参考訳（メタデータ） (2025-03-17T14:28:08Z)
GHIL-Glue: Hierarchical Control with Filtered Subgoal Images [68.36060286192262]
Generative Hierarchical Imitation Learning-Glue (GHIL-Glue) は、言語条件のイメージやビデオ予測モデルを低レベルな目標条件のポリシーで結合するインタフェースである。 GHIL-Glueはタスクの進行に繋がらないサブゴールをフィルタリングし、有害な視覚的アーティファクトを持つ生成されたサブゴールに対するゴール条件付きポリシーの堅牢性を改善する。我々は、GHIL-Glueが生成サブゴールを利用する複数の階層モデルに対して25%改善するシミュレーション環境と実環境の両方において、広範な実験を行った。
論文参考訳（メタデータ） (2024-10-26T00:32:21Z)
Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion [41.52811286996212]
Make-An-Agentは、行動から政治への生成のための新しいポリシーパラメータジェネレータである。所望の行動の1つの実演をプロンプトとして、エージェントに対して制御ポリシーを生成する方法を示す。また,Make-An-Agentによって生成されたポリシーを,ロコモーションタスク上で現実世界のロボットに展開する。
論文参考訳（メタデータ） (2024-07-15T17:59:57Z)
Towards Interpretable Foundation Models of Robot Behavior: A Task Specific Policy Generation Approach [1.7205106391379026]
ファンデーションモデルは、汎用的でユーザフレンドリーなロボットへの、有望な道のりだ。特に、タスク間のモジュラリティの欠如は、モデルの重みが更新されると、他の無関係なタスクの振る舞いが影響を受ける可能性があることを意味します。本稿では,スタンドアロンのタスク固有のポリシーを生成するロボット基盤モデルの設計に対する代替的アプローチを提案する。
論文参考訳（メタデータ） (2024-07-10T21:55:44Z)
Imagination Policy: Using Generative Point Cloud Models for Learning Manipulation Policies [25.760946763103483]
Imagination Policy(Imagination Policy)は,高精度ピック・アンド・プレイス・タスクを解くための新しいマルチタスク・キー・フレーム・ポリシー・ネットワークである。アクションを直接学習する代わりに、Imagination Policy は所望の状態を想像するために点雲を生成し、それが厳密なアクション推定を用いてアクションに変換される。
論文参考訳（メタデータ） (2024-06-17T17:00:41Z)
Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文参考訳（メタデータ） (2024-02-23T19:09:10Z)
Residual Q-Learning: Offline and Online Policy Customization without Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。政策カスタマイズと呼ばれる新しい問題設定を定式化する。本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文参考訳（メタデータ） (2023-06-15T22:01:19Z)
Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文参考訳（メタデータ） (2022-05-17T06:58:17Z)
Constructing a Good Behavior Basis for Transfer using Generalized Policy Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文参考訳（メタデータ） (2021-12-30T12:20:46Z)
Stronger Generalization Guarantees for Robot Learning by Combining Generative Models and Real-World Data [5.935761705025763]
実世界の環境の有限データセットを活用することで、一般化保証を提供するためのフレームワークを提供する。非線形・ハイブリッド力学とリッチ・センシング・モダリティを持つ2つのシミュレーションシステムに対するアプローチを実証する。
論文参考訳（メタデータ） (2021-11-16T20:13:10Z)
DisCo RL: Distribution-Conditioned Reinforcement Learning for General-Purpose Policies [116.12670064963625]
分散条件強化学習(DisCo RL)と呼ばれるオフポリシーアルゴリズムを開発し、コンテキストポリシーを効率的に学習します。 DisCo RLをさまざまなロボット操作タスクで評価し、新しい目標分布への一般化を必要とするタスクの以前の方法を大幅に上回っていることを発見しました。
論文参考訳（メタデータ） (2021-04-23T16:51:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。