論文の概要: Investigating the Impact of Observation Space Design Choices On Training Reinforcement Learning Solutions for Spacecraft Problems
- arxiv url: http://arxiv.org/abs/2501.06016v1
- Date: Fri, 10 Jan 2025 14:53:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:26:04.859749
- Title: Investigating the Impact of Observation Space Design Choices On Training Reinforcement Learning Solutions for Spacecraft Problems
- Title(参考訳): 宇宙設計選択が宇宙機問題に対する強化学習ソリューションに及ぼす影響の検討
- Authors: Nathaniel Hamilton, Kyle Dunlap, Kerianne L Hobbs,
- Abstract要約: 本稿では,RLエージェントが宇宙船の検査課題を学習する際の,環境の観察空間の変化が,RLエージェントの訓練と性能に与える影響について考察する。
最初は、エージェントがタスクを学習するのを助けるために設計されたセンサーの影響について調べる。
2つ目は、参照フレームの影響を見て、エージェントを別の視点から世界を見るように調整することです。
- 参考スコア(独自算出の注目度): 0.3441021278275805
- License:
- Abstract: Recent research using Reinforcement Learning (RL) to learn autonomous control for spacecraft operations has shown great success. However, a recent study showed their performance could be improved by changing the action space, i.e. control outputs, used in the learning environment. This has opened the door for finding more improvements through further changes to the environment. The work in this paper focuses on how changes to the environment's observation space can impact the training and performance of RL agents learning the spacecraft inspection task. The studies are split into two groups. The first looks at the impact of sensors that were designed to help agents learn the task. The second looks at the impact of reference frames, reorienting the agent to see the world from a different perspective. The results show the sensors are not necessary, but most of them help agents learn more optimal behavior, and that the reference frame does not have a large impact, but is best kept consistent.
- Abstract(参考訳): 宇宙船の自律制御を学習するための強化学習(RL)を用いた最近の研究は大きな成功を収めている。
しかし,近年の研究では,学習環境における動作空間,すなわち制御出力を変化させることで,その性能を向上できることが示されている。
これにより、環境へのさらなる変更を通じて、さらなる改善を見つけるための扉が開かれた。
本研究は,RLエージェントが宇宙船の検査課題を学習する際の,環境の観察空間の変化が,RLエージェントの訓練と性能に与える影響について考察する。
研究は2つのグループに分けられる。
最初は、エージェントがタスクを学習するのを助けるために設計されたセンサーの影響について調べる。
2つ目は、参照フレームの影響を見て、エージェントを別の視点から世界を見るように調整することです。
その結果、センサーは必要ないが、エージェントがより最適な行動を学ぶのに役立ち、基準フレームには大きな影響はなく、一貫性が保たれていることが判明した。
関連論文リスト
- Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Point Cloud Matters: Rethinking the Impact of Different Observation Spaces on Robot Learning [58.69297999175239]
ロボット学習においては、異なるモードの異なる特徴のために観察空間が不可欠である。
本研究では,RGB, RGB-D, 点雲の3つのモードに着目し, 様々な観測空間がロボット学習に与える影響について検討する。
論文 参考訳(メタデータ) (2024-02-04T14:18:45Z) - Reward Finetuning for Faster and More Accurate Unsupervised Object
Discovery [64.41455104593304]
Reinforcement Learning from Human Feedback (RLHF)は、機械学習モデルを改善し、それを人間の好みに合わせる。
本稿では,RL法と類似した手法を非教師対象発見に適用することを提案する。
私たちは、我々のアプローチがより正確であるだけでなく、訓練よりも桁違いに高速であることを示した。
論文 参考訳(メタデータ) (2023-10-29T17:03:12Z) - Information Design in Multi-Agent Reinforcement Learning [61.140924904755266]
強化学習(Reinforcement Learning、RL)は、人間の幼児や動物が環境から学ぶ方法にインスパイアされている。
計算経済学の研究は、他者に直接影響を与える2つの方法を蒸留する: 有形物(機械設計)の提供と情報(情報設計)の提供である。
論文 参考訳(メタデータ) (2023-05-08T07:52:15Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Causal Influence Detection for Improving Efficiency in Reinforcement
Learning [11.371889042789219]
条件付き相互情報に基づく状況依存因果関係の尺度を導入する。
影響の状態を確実に検出できることが示される。
修正アルゴリズムはすべて、ロボット操作タスクにおけるデータ効率の大幅な向上を示している。
論文 参考訳(メタデータ) (2021-06-07T09:21:56Z) - LASER: Learning a Latent Action Space for Efficient Reinforcement
Learning [41.53297694894669]
本稿では,効率的な強化学習のための潜在行動空間の学習方法であるLASERを提案する。
学習したアクション空間マニホールドの可視化で観察したように、アクション空間のより良いアライメントからタスクスペースへの元のアクションスペースと比較して、サンプル効率が向上しました。
論文 参考訳(メタデータ) (2021-03-29T17:40:02Z) - Causal Curiosity: RL Agents Discovering Self-supervised Experiments for
Causal Representation Learning [24.163616087447874]
心因性好奇心(em causal curiosity)は,本質的な報酬である。
エージェントが最適な行動列を学習できることを示す。
また、因果因子表現の知識は、より複雑なタスクにおいてゼロショット学習に役立つことを示す。
論文 参考訳(メタデータ) (2020-10-07T02:07:51Z) - Action Space Shaping in Deep Reinforcement Learning [7.508516104014916]
強化学習は、ビデオゲームを含む様々な学習環境における訓練エージェントで成功している。
我々は,これらの行動空間の修正について,ビデオゲーム環境における広範な実験を行うことで,洞察を得ることを目指している。
その結果、ドメイン固有のアクションの削除と継続的なアクションの離散化が、学習の成功に不可欠であることを示唆した。
論文 参考訳(メタデータ) (2020-04-02T13:25:55Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。