論文の概要: Imitation Learning from a Single Temporally Misaligned Video
- arxiv url: http://arxiv.org/abs/2502.05397v1
- Date: Sat, 08 Feb 2025 01:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:30:54.460622
- Title: Imitation Learning from a Single Temporally Misaligned Video
- Title(参考訳): 一時的ミスアライメントビデオからの模倣学習
- Authors: William Huey, Huaxiaoyue Wang, Anne Wu, Yoav Artzi, Sanjiban Choudhury,
- Abstract要約: 既存の手法では、模倣を分布マッチング問題として扱い、エージェントとデモの間に個々のフレームを整列させる。
このようなフレームレベルのマッチングは、時間的順序付けや一貫した進捗の確保に失敗することを示す。
本稿では,実演フレームをカバーするエージェントの確率を正しい順序で測定する,高密度な時間ステップごとの報酬関数ORCAを提案する。
- 参考スコア(独自算出の注目度): 21.599701948099842
- License:
- Abstract: We examine the problem of learning sequential tasks from a single visual demonstration. A key challenge arises when demonstrations are temporally misaligned due to variations in timing, differences in embodiment, or inconsistencies in execution. Existing approaches treat imitation as a distribution-matching problem, aligning individual frames between the agent and the demonstration. However, we show that such frame-level matching fails to enforce temporal ordering or ensure consistent progress. Our key insight is that matching should instead be defined at the level of sequences. We propose that perfect matching occurs when one sequence successfully covers all the subgoals in the same order as the other sequence. We present ORCA (ORdered Coverage Alignment), a dense per-timestep reward function that measures the probability of the agent covering demonstration frames in the correct order. On temporally misaligned demonstrations, we show that agents trained with the ORCA reward achieve $4.5$x improvement ($0.11 \rightarrow 0.50$ average normalized returns) for Meta-world tasks and $6.6$x improvement ($6.55 \rightarrow 43.3$ average returns) for Humanoid-v4 tasks compared to the best frame-level matching algorithms. We also provide empirical analysis showing that ORCA is robust to varying levels of temporal misalignment. Our code is available at https://github.com/portal-cornell/orca/
- Abstract(参考訳): 1つの視覚的な実演から逐次的なタスクを学習する問題について検討する。
重要な課題は、デモがタイミングの変化、実施形態の違い、実行の不整合のために時間的に不整合しているときに発生する。
既存の手法では、模倣を分布マッチング問題として扱い、エージェントとデモの間に個々のフレームを整列させる。
しかし,このようなフレームレベルのマッチングは時間的順序付けや一貫した進捗の確保に失敗する。
私たちの重要な洞察は、マッチングはシーケンスのレベルで定義されるべきであるということです。
完全マッチングは、あるシーケンスが他のシーケンスと同じ順序ですべてのサブゴールをうまくカバーした場合に発生する。
実演フレームをカバーするエージェントの確率を正しい順序で測定する高密度な時間ステップ毎の報酬関数ORCA(Ordered Coverage Alignment)を提案する。
時間的に不一致なデモでは、ORCA報酬で訓練されたエージェントがメタワールドタスクに対して4.5$x(0.11 \rightarrow 0.50$ average normalized return)、Humanoid-v4タスクに対して6.6$x(6.55 \rightarrow 43.3$ average return)を達成している。
また,ORCAは時間的不一致の程度に頑健であることを示す経験的分析を行った。
私たちのコードはhttps://github.com/portal-cornell/orca/で利用可能です。
関連論文リスト
- Clustered Switchback Experiments: Near-Optimal Rates Under Spatiotemporal Interference [44.644520116360106]
我々は, 平均治療効果 (GATE) を推定し, 全単位を常に治療やコントロールに曝露した平均結果の差を推定した。
そこで我々は,単位をクラスタにグループ化し,時間ステップをブロックにグループ化する,クラスタ化されたスイッチバック設計を提案する。
良好なクラスタリングを許容するグラフに対して,Horvitz-Thompson推定器が$tilde O(1/NT)$ mean-squared error (MSE)を達成し,$Omega (1/NT)$ lower bound to logarithmic termsと一致することを示す。
論文 参考訳(メタデータ) (2023-12-25T01:00:58Z) - Online Learning for Scheduling MIP Heuristics [15.599296461516982]
そこで本稿では,問題の解決を手元にある単一インスタンスに適応させるオンライン学習手法を提案する。
一般的に使われている静的ハンドリングを過去の観測を活かした適応フレームワークに置き換える。
解決に少なくとも1000秒を要した難しいインスタンスに対しては、4%のスピードアップを観察する。
論文 参考訳(メタデータ) (2023-04-04T14:55:15Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - On the Sample Complexity of Representation Learning in Multi-task
Bandits with Global and Local structure [77.60508571062958]
マルチタスク・バンディット問題に対する最適アーム学習の複雑さについて検討した。
アームは2つのコンポーネントで構成されます。1つはタスク間で共有され(表現と呼ばれます)、もう1つはタスク固有のもの(予測器と呼ばれます)です。
サンプルの複雑さが下界に近づき、最大で$H(Glog(delta_G)+ Xlog(delta_H))$でスケールするアルゴリズムOSRL-SCを考案する。
論文 参考訳(メタデータ) (2022-11-28T08:40:12Z) - Sharper Convergence Guarantees for Asynchronous SGD for Distributed and
Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。
本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。
また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:10:57Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - Learning to Align Sequential Actions in the Wild [123.62879270881807]
本研究では,多様な時間的変動を伴う野生における逐次行動の整合性を示すアプローチを提案する。
我々のモデルは単調列と非単調列の両方を考慮に入れている。
自己教師型シーケンシャルな行動表現学習において,我々のアプローチは一貫して最先端の行動表現学習に勝っていることを示す。
論文 参考訳(メタデータ) (2021-11-17T18:55:36Z) - Drop-DTW: Aligning Common Signal Between Sequences While Dropping
Outliers [33.174893836302005]
そこで本研究では,一致から外れ値要素を自動的に削除しながら,シーケンス間の共通信号を整列する新しいアルゴリズムDrop-DTWを提案する。
実験の結果,Drop-DTWはシーケンス検索に頑健な類似性尺度であり,多様なアプリケーションに対するトレーニング損失としての有効性を示した。
論文 参考訳(メタデータ) (2021-08-26T18:52:35Z) - Warp Consistency for Unsupervised Learning of Dense Correspondences [116.56251250853488]
密接な対応を学習する上で重要な課題は、実画像対に対する地道整合の欠如である。
密な対応回帰のための教師なし学習目標であるWarp Consistencyを提案する。
私たちのアプローチは、MegaDepth、RobotCar、TSSなど、いくつかの挑戦的なベンチマークに新しい最先端を設定します。
論文 参考訳(メタデータ) (2021-04-07T17:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。