Fugu-MT 論文翻訳(概要): Learning to Generate All Feasible Actions

論文の概要: Learning to Generate All Feasible Actions

arxiv url: http://arxiv.org/abs/2301.11461v1
Date: Thu, 26 Jan 2023 23:15:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-30 17:00:05.958530
Title: Learning to Generate All Feasible Actions
Title（参考訳）: 実現可能なすべての行動を生み出すための学習
Authors: Mirco Theile, Daniele Bernardini, Raphael Trumpp, Cristina Piazza, Marco Caccamo, Alberto L. Sangiovanni-Vincentelli
Abstract要約: 我々は、アクターにすべての実行可能なアクションを生成するよう訓練することで、再利用可能な、転送可能なスキルを学ぶ。訓練されたアクターは実行可能なアクションを提案し、その中で最適なアクションを特定のタスクに従って選択することができる。カーネル密度推定,再サンプリング,重要サンプリングの組み合わせを用いて,任意のf-分岐に対する最適化目標を導出する。
参考スコア（独自算出の注目度）: 4.250219822975011
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Several machine learning (ML) applications are characterized by searching for an optimal solution to a complex task. The search space for this optimal solution is often very large, so large in fact that this optimal solution is often not computable. Part of the problem is that many candidate solutions found via ML are actually infeasible and have to be discarded. Restricting the search space to only the feasible solution candidates simplifies finding an optimal solution for the tasks. Further, the set of feasible solutions could be re-used in multiple problems characterized by different tasks. In particular, we observe that complex tasks can be decomposed into subtasks and corresponding skills. We propose to learn a reusable and transferable skill by training an actor to generate all feasible actions. The trained actor can then propose feasible actions, among which an optimal one can be chosen according to a specific task. The actor is trained by interpreting the feasibility of each action as a target distribution. The training procedure minimizes a divergence of the actor's output distribution to this target. We derive the general optimization target for arbitrary f-divergences using a combination of kernel density estimates, resampling, and importance sampling. We further utilize an auxiliary critic to reduce the interactions with the environment. A preliminary comparison to related strategies shows that our approach learns to visit all the modes in the feasible action space, demonstrating the framework's potential for learning skills that can be used in various downstream tasks.
Abstract（参考訳）: いくつかの機械学習(ML)アプリケーションは、複雑なタスクに対する最適解を探すことで特徴付けられる。この最適解の探索空間は、しばしば非常に大きく、この最適解が計算不可能であるという事実が非常に大きい。問題の一部は、mlで見つかる多くの候補ソリューションが実際には実現不可能であり、破棄されなければならないことである。検索空間を実現可能な解候補のみに制限することは、タスクに最適な解を見つけることを単純化する。さらに、実現可能な解の集合は、異なるタスクによって特徴づけられる複数の問題で再利用することができる。特に,複雑なタスクをサブタスクとそれに対応するスキルに分解することができる。我々は,アクタが実行可能なすべてのアクションを生成するようにトレーニングすることで,再利用可能で転送可能なスキルを学ぶことを提案する。訓練されたアクターは実行可能なアクションを提案でき、その中に特定のタスクに応じて最適なアクションを選択することができる。アクタは、各アクションの実行可能性を目標分布として解釈することで訓練される。訓練手順は、この目標に対するアクターの出力分布の発散を最小限にする。任意のf-divergencesに対する一般最適化ターゲットを,カーネル密度推定,再サンプリング,重要サンプリングの組み合わせを用いて導出する。さらに,環境との相互作用を減らすために,補助的な批評家を利用する。関連戦略に対する予備的な比較は,本手法が実現可能なアクション空間のすべてのモードに到達し,様々な下流タスクで使用できる学習スキルのフレームワークの可能性を示すことを示している。

関連論文リスト

Application of LLM Guided Reinforcement Learning in Formation Control with Collision Avoidance [1.1718316049475228]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、個々のエージェントの協調作業を通じて複雑な目的を達成する。本稿では,効果的な報酬関数を設計する上での課題を克服する新しい枠組みを提案する。タスクの優先順位付けにおいて,大規模言語モデル(LLM)を付与することにより,オンライン上で動的に調整可能な報酬関数を生成する。
論文参考訳（メタデータ） (2025-07-22T09:26:00Z)
Control-Optimized Deep Reinforcement Learning for Artificially Intelligent Autonomous Systems [8.766411351797885]
深層強化学習(DRL)は、機械学習とAIにおいて、複雑な意思決定のための強力なツールとなっている。従来の手法では、エージェントが選択したアクションと実際のシステム応答の間の不確実性や逸脱を見越して、完璧なアクション実行を仮定することが多い。この作業は、アクション実行ミスマッチを明示的にモデル化し補償する、制御最適化DRLフレームワークを開発することで、AIを前進させる。
論文参考訳（メタデータ） (2025-06-30T21:25:52Z)
Context Matters! Relaxing Goals with LLMs for Feasible 3D Scene Planning [2.111102681327218]
本稿では,古典的計画と大規模言語モデルを統合するアプローチを提案する。本稿では,ロボットが実現不可能なタスクを抽出できるようにする階層型定式化を提案する。提案手法は,3次元シーングラフを用いてモデル化した環境において,タスクの適応と実行を効果的に行うことができることを示す。
論文参考訳（メタデータ） (2025-06-18T19:14:56Z)
Action Flow Matching for Continual Robot Learning [57.698553219660376]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文参考訳（メタデータ） (2025-04-25T16:26:15Z)
Bridging the gap between Learning-to-plan, Motion Primitives and Safe Reinforcement Learning [20.158498233576143]
キノダイナミック制約の下での軌道計画は、高度なロボティクス応用の基礎となる。キノダイナミックプランニングの最近の進歩は、複雑な制約の下で複雑な動きを学習・計画技術が生成できることを実証している。本稿では,学習から計画までの手法と強化学習を組み合わせることで,動作プリミティブのブラックボックス学習と最適化の新たな統合を実現する。
論文参考訳（メタデータ） (2024-08-26T07:44:53Z)
Diffusion-Reinforcement Learning Hierarchical Motion Planning in Adversarial Multi-agent Games [6.532258098619471]
部分的に観察可能なマルチエージェント追従ゲーム(PEG)における回避目標の動作計画タスクに焦点をあてる。これらの追尾回避問題は、捜索・救助活動や監視ロボットなど、様々な応用に関係している。環境データに応答するグローバルパスを計画するために,高レベル拡散モデルを統合する階層型アーキテクチャを提案する。
論文参考訳（メタデータ） (2024-03-16T03:53:55Z)
Building Minimal and Reusable Causal State Abstractions for Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。 CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文参考訳（メタデータ） (2024-01-23T05:43:15Z)
Tactile Active Inference Reinforcement Learning for Efficient Robotic Manipulation Skill Acquisition [10.072992621244042]
触覚能動推論強化学習(Tactile Active Inference Reinforcement Learning, Tactile-AIRL)と呼ばれるロボット操作におけるスキル学習手法を提案する。強化学習(RL)の性能を高めるために,モデルに基づく手法と本質的な好奇心をRLプロセスに統合した能動推論を導入する。本研究では,タスクをプッシュする非包括的オブジェクトにおいて,学習効率が著しく向上することが実証された。
論文参考訳（メタデータ） (2023-11-19T10:19:22Z)
Exploiting Symmetry and Heuristic Demonstrations in Off-policy Reinforcement Learning for Robotic Manipulation [1.7901837062462316]
本稿では,物理ロボット環境に存在する自然対称性を定義し,組み込むことを目的とする。提案手法は,産業用アームの2つのポイント・ツー・ポイント・リーチタスクによって,障害物を伴わずに検証される。提案手法と従来の非政治強化学習アルゴリズムとの比較研究は,アプリケーションにおける学習性能と潜在的価値の優位性を示している。
論文参考訳（メタデータ） (2023-04-12T11:38:01Z)
Training and Evaluation of Deep Policies using Reinforcement Learning and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。強化学習と潜在変数生成モデルの組み合わせを利用する。最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文参考訳（メタデータ） (2022-04-18T22:02:32Z)
Failure-averse Active Learning for Physics-constrained Systems [7.701064815584088]
本研究では,システムを管理する暗黙の物理制約を考慮した,新しい能動的学習手法を開発した。提案手法は, 対象モデルの分散を低減するために安全な領域を探索し, 制約の確率モデルを利用して探索可能な領域を拡張することを目的としている。この方法は、Tsai-wu基準を用いた材料故障を考慮した複合胴体組立プロセスに適用され、明示的な故障領域の知識を必要とせず、ゼロフェイルを達成することができる。
論文参考訳（メタデータ） (2021-10-27T14:01:03Z)
Online reinforcement learning with sparse rewards through an active inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-04T10:03:36Z)
Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文参考訳（メタデータ） (2020-12-12T05:30:35Z)
Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文参考訳（メタデータ） (2020-10-27T13:17:18Z)
Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文参考訳（メタデータ） (2020-07-14T16:42:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。