論文の概要: Blindfolded Experts Generalize Better: Insights from Robotic Manipulation and Videogames
- arxiv url: http://arxiv.org/abs/2510.24194v1
- Date: Tue, 28 Oct 2025 08:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.911844
- Title: Blindfolded Experts Generalize Better: Insights from Robotic Manipulation and Videogames
- Title(参考訳): Blindfolded Expertsの一般化:ロボット操作とビデオゲームの展望
- Authors: Ev Zisselman, Mirco Mutti, Shelly Francis-Meretzki, Elisei Shafer, Aviv Tamar,
- Abstract要約: 目隠しされた専門家のクローン化は、完全にインフォームドされた専門家よりも、目に見えないタスクに一般化されていることを示す。
実世界のロボットペグ挿入作業において,人間によるデモンストレーションを限定的に行う実験を行った。
理論と実践の両方は、目隠しされた専門家は、より少ない実演タスクでより良く一般化することを示している。
- 参考スコア(独自算出の注目度): 27.330031940630107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavioral cloning is a simple yet effective technique for learning sequential decision-making from demonstrations. Recently, it has gained prominence as the core of foundation models for the physical world, where achieving generalization requires countless demonstrations of a multitude of tasks. Typically, a human expert with full information on the task demonstrates a (nearly) optimal behavior. In this paper, we propose to hide some of the task's information from the demonstrator. This ``blindfolded'' expert is compelled to employ non-trivial exploration to solve the task. We show that cloning the blindfolded expert generalizes better to unseen tasks than its fully-informed counterpart. We conduct experiments of real-world robot peg insertion tasks with (limited) human demonstrations, alongside videogames from the Procgen benchmark. Additionally, we support our findings with theoretical analysis, which confirms that the generalization error scales with $\sqrt{I/m}$, where $I$ measures the amount of task information available to the demonstrator, and $m$ is the number of demonstrated tasks. Both theory and practice indicate that cloning blindfolded experts generalizes better with fewer demonstrated tasks. Project page with videos and code: https://sites.google.com/view/blindfoldedexperts/home
- Abstract(参考訳): 行動クローニングは、デモからシーケンシャルな意思決定を学ぶための、シンプルで効果的なテクニックである。
近年,多種多様なタスクの無数の実演を必要とする物理世界の基盤モデルの中心として注目されている。
通常、タスクに関する完全な情報を持つ人間専門家は、(ほぼ)最適な振る舞いを示す。
本稿では,実証者からタスクの情報の一部を隠蔽することを提案する。
この 'blindfolded' の専門家は、そのタスクを解決するために、非自明な探索を使わざるを得ない。
目隠しされた専門家のクローン化は、完全にインフォームドされた専門家よりも、目に見えないタスクを一般化することを示します。
実世界のロボットペグ挿入タスクを、Procgenベンチマークのビデオゲームと並行して、人間による(限定的な)デモで実験する。
さらに、理論解析により、一般化誤差が$\sqrt{I/m}$でスケールしていることを確認し、$I$は実証者が利用できるタスク情報の量を測定し、$m$は実演タスクの数であることを示す。
理論と実践の両方は、目隠しされた専門家は、より少ない実演タスクでより良く一般化することを示している。
ビデオとコード付きプロジェクトページ:https://sites.google.com/view/blindfoldedexperts/home
関連論文リスト
- Egocentric Instruction-oriented Affordance Prediction via Large Multimodal Model [2.393736608344872]
物体操作の文脈では、知能ロボットにとってアフォーダンスは不可欠である。
本稿では,手頃さはタスク・インストラクション・インストラクションに依存しているべきだと論じる。
本研究では,1万5000件のオブジェクト命令-アダクタンス三重項からなる新しいデータセットを提案する。
論文 参考訳(メタデータ) (2025-08-25T11:40:31Z) - $π_{0.5}$: a Vision-Language-Action Model with Open-World Generalization [81.73746512639283]
広義の一般化を実現するために異種タスクのコトレーニングを利用する$pi_0.5$に基づく新しいモデルについて述べる。
本研究では,エンド・ツー・エンドの学習支援ロボットシステムが,長期的かつ巧妙な操作能力を発揮することを初めて実証する。
論文 参考訳(メタデータ) (2025-04-22T17:31:29Z) - Hulk: A Universal Knowledge Translator for Human-Centric Tasks [69.8518392427151]
我々は、最初のマルチモーダルな人間中心ジェネラリストモデルであるハルクを提示する。
2Dビジョン、3Dビジョン、スケルトンベース、そしてタスク固有の微調整なしで視覚言語タスクに対処する。
Hulkは11のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-12-04T07:36:04Z) - Explore to Generalize in Zero-Shot RL [38.43215023828472]
本研究では,強化学習におけるゼロショットの一般化について検討する。
提案手法は,Mazeタスクが83%,Heistが74%,トレーニングレベルが200ドルという,極めて効果的な一般化を実現したProcGen課題のタスクの最先端技術であることを示す。
論文 参考訳(メタデータ) (2023-06-05T17:49:43Z) - Reinforcement learning with Demonstrations from Mismatched Task under
Sparse Reward [7.51772160511614]
強化学習は、現実世界のロボティクス問題において、希少な報酬問題に悩まされることが多い。
先行研究はしばしば、学習エージェントと専門家が同じタスクを達成しようとしていると仮定する。
本稿では,対象タスクと専門家のタスクとが一致しない場合について考察する。
既存のLfD手法では、ミスマッチした新しいタスクにおける学習をスパース報酬で効果的に導くことはできない。
論文 参考訳(メタデータ) (2022-12-03T02:24:59Z) - Playful Interactions for Representation Learning [82.59215739257104]
本稿では,下流タスクの視覚的表現を学習するために,遊び心のあるインタラクションを自己指導的に利用することを提案する。
19の多様な環境で2時間の遊び心のあるデータを収集し、自己予測学習を用いて視覚的表現を抽出する。
我々の表現は、標準的な行動クローニングよりも一般化され、必要なデモの半数しか必要とせず、同様の性能を達成できる。
論文 参考訳(メタデータ) (2021-07-19T17:54:48Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Generalized Hindsight for Reinforcement Learning [154.0545226284078]
1つのタスクを解決しようとするときに収集された低リワードデータは、そのタスクを解決するための信号をほとんど、あるいは全く提供しない、と我々は主張する。
本稿では,動作を適切なタスクで再現するための近似逆強化学習手法であるGeneralized Hindsightを提案する。
論文 参考訳(メタデータ) (2020-02-26T18:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。