論文の概要: Active Reward Machine Inference From Raw State Trajectories
- arxiv url: http://arxiv.org/abs/2604.07480v1
- Date: Wed, 08 Apr 2026 18:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.503069
- Title: Active Reward Machine Inference From Raw State Trajectories
- Title(参考訳): 原状態軌道からのアクティブリワードマシン推論
- Authors: Mohamad Louai Shehab, Antoine Aspeel, Necmiye Ozay,
- Abstract要約: 本稿では、生の状態と政策情報から直接報酬機を学習する問題を扱う。
既存の研究とは対照的に、報奨、ラベル、またはマシンノードの観測にアクセスできないと仮定し、この情報収集体制において報奨機を学ぶのに十分な軌道データを示す。
そして、結果をアクティブな学習環境に拡張し、トラジェクトリ拡張をインクリメンタルにクエリしてデータ(および間接計算)効率を改善する。
- 参考スコア(独自算出の注目度): 0.1274452325287335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward machines are automaton-like structures that capture the memory required to accomplish a multi-stage task. When combined with reinforcement learning or optimal control methods, they can be used to synthesize robot policies to achieve such tasks. However, specifying a reward machine by hand, including a labeling function capturing high-level features that the decisions are based on, can be a daunting task. This paper deals with the problem of learning reward machines directly from raw state and policy information. As opposed to existing works, we assume no access to observations of rewards, labels, or machine nodes, and show what trajectory data is sufficient for learning the reward machine in this information-scarce regime. We then extend the result to an active learning setting where we incrementally query trajectory extensions to improve data (and indirectly computational) efficiency. Results are demonstrated with several grid world examples.
- Abstract(参考訳): リワードマシンは、マルチステージタスクを達成するために必要なメモリをキャプチャするオートマトンのような構造である。
強化学習や最適制御手法と組み合わせることで、ロボットポリシーを合成してそのようなタスクを達成することができる。
しかし、決定に基づいて高レベルの特徴をキャプチャするラベル付け機能を含む、手動で報酬機を指定することは、大変な作業である。
本稿では、生の状態と政策情報から直接報酬機を学習する問題を扱う。
既存の研究とは対照的に、報奨、ラベル、またはマシンノードの観測にアクセスできないと仮定し、この情報収集体制において報奨機を学ぶのに十分な軌道データを示す。
そして、結果をアクティブな学習環境に拡張し、トラジェクトリ拡張をインクリメンタルにクエリしてデータ(および間接計算)効率を改善する。
結果はいくつかのグリッドワールドの例で示されています。
関連論文リスト
- Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する,新しい値に基づく強化学習アルゴリズムを提案する。
実験により、CQN-ASは、様々なスパース逆ヒューマノイド制御およびテーブルトップ操作タスクにおいて、いくつかのベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - A Generalized Acquisition Function for Preference-based Reward Learning [12.158619866176487]
優先度に基づく報酬学習は、ロボットや自律システムに対して、人間がタスクを実行したいと望む方法を教えるための一般的なテクニックである。
従来の研究では、報酬関数パラメータに関する情報獲得を最大化するために、嗜好クエリを積極的に合成することで、データ効率が向上することが示されている。
本研究では, 報酬関数を行動同値クラスまで学習するためには, 行動上の同一ランク付け, 選択上の分布, その他の関連する2つの報酬の類似性の定義などの最適化が可能であることを示す。
論文 参考訳(メタデータ) (2024-03-09T20:32:17Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - A Reinforcement Learning Approach for Robotic Unloading from Visual
Observations [1.420663986837751]
本研究では,視覚的観察からロボットを降ろす問題に焦点をあてる。
本稿では,ハイレベルな意思決定モジュールと古典的な動作制御を組み合わせた階層型コントローラ構造を提案する。
本実験は,これらの要素が学習性能の向上に重要な役割を担っていることを示す。
論文 参考訳(メタデータ) (2023-09-12T22:22:28Z) - RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation [36.43143326197769]
Track-Any-Point (TAP) モデルは、デモ中の関連する動きを分離し、低レベルのコントローラをパラメータ化して、シーン構成の変化をまたいでこの動きを再現する。
この結果は,形状整合,積み重ね,さらには接着や物体の付着といった完全な経路追従といった複雑な物体配置タスクを解くことのできるロバストなロボットポリシーで示される。
論文 参考訳(メタデータ) (2023-08-30T11:57:04Z) - ALBench: A Framework for Evaluating Active Learning in Object Detection [102.81795062493536]
本稿では、オブジェクト検出におけるアクティブラーニングを評価するために、ALBenchという名前のアクティブラーニングベンチマークフレームワークをコントリビュートする。
自動深層モデルトレーニングシステム上で開発されたこのALBenchフレームワークは、使いやすく、さまざまなアクティブな学習アルゴリズムと互換性があり、同じトレーニングおよびテストプロトコルを保証する。
論文 参考訳(メタデータ) (2022-07-27T07:46:23Z) - Disentangled Planning and Control in Vision Based Robotics via Reward
Machines [13.486750561133634]
ロボットタスクのビジョンベースのポリシーの学習速度を向上させるために、Deep Q-Learning Agent with a Reward Machine (DQRM)を増強します。
報酬機(英: reward machine、RM)は、タスクを個別の計画グラフに分解し、エージェントに報酬関数を付与してタスク完了に向けて誘導する有限状態機械である。
論文 参考訳(メタデータ) (2020-12-28T19:54:40Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。