論文の概要: BEAC: Imitating Complex Exploration and Task-oriented Behaviors for Invisible Object Nonprehensile Manipulation
- arxiv url: http://arxiv.org/abs/2503.16803v1
- Date: Fri, 21 Mar 2025 02:26:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:55:25.500080
- Title: BEAC: Imitating Complex Exploration and Task-oriented Behaviors for Invisible Object Nonprehensile Manipulation
- Title(参考訳): BEAC: 可視的オブジェクト非包括的操作のための複雑な探索とタスク指向行動の緩和
- Authors: Hirotaka Tahara, Takamitsu Matsubara,
- Abstract要約: 本稿では,BEAC(Belief Exploration-Action Cloning)と呼ばれる新しい模倣学習フレームワークを提案する。
提案手法は, ユーザの認知負荷を低減しつつ, タスク性能, より高いモード, 行動予測精度を達成した。
- 参考スコア(独自算出の注目度): 9.453992660558256
- License:
- Abstract: Applying imitation learning (IL) is challenging to nonprehensile manipulation tasks of invisible objects with partial observations, such as excavating buried rocks. The demonstrator must make such complex action decisions as exploring to find the object and task-oriented actions to complete the task while estimating its hidden state, perhaps causing inconsistent action demonstration and high cognitive load problems. For these problems, work in human cognitive science suggests that promoting the use of pre-designed, simple exploration rules for the demonstrator may alleviate the problems of action inconsistency and high cognitive load. Therefore, when performing imitation learning from demonstrations using such exploration rules, it is important to accurately imitate not only the demonstrator's task-oriented behavior but also his/her mode-switching behavior (exploratory or task-oriented behavior) under partial observation. Based on the above considerations, this paper proposes a novel imitation learning framework called Belief Exploration-Action Cloning (BEAC), which has a switching policy structure between a pre-designed exploration policy and a task-oriented action policy trained on the estimated belief states based on past history. In simulation and real robot experiments, we confirmed that our proposed method achieved the best task performance, higher mode and action prediction accuracies, while reducing the cognitive load in the demonstration indicated by a user study.
- Abstract(参考訳): 模倣学習(IL)の適用は、埋没した岩を掘削するなど、部分的な観察を伴う見えない物体の操作タスクを非理解的に行うことが困難である。
デモ参加者は、隠された状態を推定しながらタスクを完了させる目的やタスク指向のアクションを見つけようとするような複雑なアクション決定をしなければならない。
これらの問題に対して、人間の認知科学における研究は、事前に設計された単純な探索規則の使用を促進することで、行動の不整合と高い認知負荷の問題を緩和する可能性があることを示唆している。
したがって、このような探索規則を用いてデモンストレーションから模擬学習を行う際には、デモ参加者のタスク指向行動だけでなく、そのモードスイッチング行動(探索的・タスク指向行動)を部分的に観察した上で正確に模倣することが重要である。
以上の考察に基づいて,過去史に基づく推定信念状態に基づいて訓練されたタスク指向行動政策と,事前設計した探索政策とを切り替える政策構造を有する,BEAC(Belief Exploration-Action Cloning)と呼ばれる新しい模倣学習フレームワークを提案する。
シミュレーションおよび実ロボット実験において,提案手法が最高のタスク性能,より高いモード,行動予測精度を達成し,ユーザによる実証実験の認知負荷を低減できることを確認した。
関連論文リスト
- Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Imitation from Observation With Bootstrapped Contrastive Learning [12.048166025000976]
IfO(IfO)は、マルコフ決定プロセスにおいて自律エージェントを訓練する学習パラダイムである。
本稿では,OfOアルゴリズムであるBootIfOLについて紹介する。
我々は,限られた数の実証軌道を用いて効果的な政策を訓練できることを示す,様々な制御タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-02-13T17:32:17Z) - Regularized Soft Actor-Critic for Behavior Transfer Learning [10.519534498340482]
既存の模倣学習手法は主に、エージェントを実演行動に効果的に模倣することに焦点を当てている。
本稿では,主課題と模倣課題を定式化する正則化ソフトアクター・クライト法を提案する。
ビデオゲームアプリケーションに関連する連続制御タスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-27T07:52:04Z) - Chain of Thought Imitation with Procedure Cloning [129.62135987416164]
本稿では,一連の専門家計算を模倣するために,教師付きシーケンス予測を適用したプロシージャクローニングを提案する。
本研究では、専門家の行動の中間計算を模倣することで、プロシージャのクローン化により、未知の環境構成に顕著な一般化を示すポリシーを学習できることを示す。
論文 参考訳(メタデータ) (2022-05-22T13:14:09Z) - Active Observer Visual Problem-Solving Methods are Dynamically
Hypothesized, Deployed and Tested [17.58979205709865]
ヒトは様々な問題解決戦略を示しており、その幅と複雑さは驚きであり、現在の手法では容易に扱えない。
その結果,STARの認知プログラム表現が現実世界のタスクとの関連性を高めることが示唆された。
論文 参考訳(メタデータ) (2021-08-18T13:33:07Z) - Imitation by Predicting Observations [17.86983397979034]
本研究では, 連続制御タスクの課題に対して, 専門家に匹敵する性能を達成できる観測結果のみを模倣する新しい手法を提案する。
提案手法は, 逆RL目標から導出され, 専門家の観察結果の生成モデルを用いて学習した専門家の行動モデルを用いて模倣する。
本稿では,DeepMind Control Suiteベンチマークにおける強力なベースラインIRL法(GAIL)に対して,タスク非関連機能の存在下でGAILよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2021-07-08T14:09:30Z) - Seeing Differently, Acting Similarly: Imitation Learning with
Heterogeneous Observations [126.78199124026398]
多くの実世界の模倣学習タスクでは、デモレーターと学習者は異なるが完全な観察空間で行動しなければならない。
本研究では、上記の学習問題を異種観察学習(HOIL)としてモデル化する。
本稿では,重要度重み付け,拒否学習,アクティブクエリに基づくIWREアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-17T05:44:04Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。