論文の概要: Open-World Skill Discovery from Unsegmented Demonstrations
- arxiv url: http://arxiv.org/abs/2503.10684v1
- Date: Tue, 11 Mar 2025 18:51:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:09:09.484624
- Title: Open-World Skill Discovery from Unsegmented Demonstrations
- Title(参考訳): 不可解なデモから学ぶオープンワールドスキル
- Authors: Jingwen Deng, Zihao Wang, Shaofei Cai, Anji Liu, Yitao Liang,
- Abstract要約: オンラインデモビデオのセグメンテーションのための自己教師型学習ベースアプローチを開発した。
アノテーションのない時間的ビデオセグメンテーションアルゴリズムであるスキル境界検出(SBD)を導入する。
提案手法は,多様なYouTubeビデオを利用して,指示追従エージェントの訓練を行う。
- 参考スコア(独自算出の注目度): 21.57982251502703
- License:
- Abstract: Learning skills in open-world environments is essential for developing agents capable of handling a variety of tasks by combining basic skills. Online demonstration videos are typically long but unsegmented, making them difficult to segment and label with skill identifiers. Unlike existing methods that rely on sequence sampling or human labeling, we have developed a self-supervised learning-based approach to segment these long videos into a series of semantic-aware and skill-consistent segments. Drawing inspiration from human cognitive event segmentation theory, we introduce Skill Boundary Detection (SBD), an annotation-free temporal video segmentation algorithm. SBD detects skill boundaries in a video by leveraging prediction errors from a pretrained unconditional action-prediction model. This approach is based on the assumption that a significant increase in prediction error indicates a shift in the skill being executed. We evaluated our method in Minecraft, a rich open-world simulator with extensive gameplay videos available online. Our SBD-generated segments improved the average performance of conditioned policies by 63.7% and 52.1% on short-term atomic skill tasks, and their corresponding hierarchical agents by 11.3% and 20.8% on long-horizon tasks. Our method can leverage the diverse YouTube videos to train instruction-following agents. The project page can be found in https://craftjarvis.github.io/SkillDiscovery.
- Abstract(参考訳): オープンワールド環境における学習スキルは、基本的なスキルを組み合わせることで、様々なタスクを処理できるエージェントを開発するために不可欠である。
オンラインのデモビデオは長大だが非セグメンテーションなので、スキル識別子でセグメンテーションやラベル付けが難しい。
シーケンスサンプリングやヒューマンラベリングを頼りにしている既存の手法とは異なり、長い動画を一連のセマンティック・アウェアとスキル一貫性のあるセグメントに分割する自己教師付き学習ベースのアプローチを開発した。
人間の認知イベントセグメンテーション理論からインスピレーションを得て,アノテーションのない時間的ビデオセグメンテーションアルゴリズムであるスキル境界検出(SBD)を導入する。
SBDは、事前訓練された無条件動作予測モデルから予測誤差を活用することにより、ビデオ内のスキル境界を検出する。
このアプローチは、予測エラーの大幅な増加は、実行中のスキルの変化を示すという仮定に基づいている。
オンライン上で利用可能なゲームプレイビデオを備えたリッチなオープンワールドシミュレータであるMinecraftで,我々の手法を評価した。
我々のSBD生成セグメントは、短期的な原子スキルタスクにおける条件付きポリシーの平均性能を63.7%、52.1%改善し、それに対応する階層的エージェントは11.3%、長期的タスクでは20.8%向上した。
提案手法は,多様なYouTubeビデオを利用して,指示追従エージェントの訓練を行う。
プロジェクトのページはhttps://craftjarvis.github.io/SkillDiscovery.orgにある。
関連論文リスト
- Learning Human Skill Generators at Key-Step Levels [56.91737190115577]
キーステップスキル生成(KS-Gen)は、人間のスキルビデオの生成の複雑さを軽減することを目的としている。
初期状態とスキル記述から、そのスキルを完成させるために重要なステップのビデオクリップを生成する。
KS-Genの複雑さを考慮し、本課題のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T09:21:40Z) - Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [98.92677830223786]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。
本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。
提案手法は,多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Video Manipulations Beyond Faces: A Dataset with Human-Machine Analysis [60.13902294276283]
我々は826の動画(413のリアルと413の操作)からなるデータセットであるVideoShamを提示する。
既存のディープフェイクデータセットの多くは、2種類の顔操作にのみ焦点をあてている。
我々の分析によると、最先端の操作検出アルゴリズムはいくつかの特定の攻撃に対してのみ有効であり、VideoShamではうまくスケールしない。
論文 参考訳(メタデータ) (2022-07-26T17:39:04Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Video2Skill: Adapting Events in Demonstration Videos to Skills in an
Environment using Cyclic MDP Homomorphisms [16.939129935919325]
Video2Skill(V2S)は、ロボットアームが人間の料理ビデオから学習できるようにすることで、この能力を人工知能に拡張しようとしている。
まずシーケンシャル・ツー・シーケンス・オートエンコーダ・スタイルのアーキテクチャを用いて,長期にわたる実演におけるイベントの時間潜在空間を学習する。
次に、少数のオフラインおよび無関係な相互作用データを用いて、これらの表現をロボットターゲットドメインに転送する。
論文 参考訳(メタデータ) (2021-09-08T17:59:01Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z) - Self-supervised Video Representation Learning by Pace Prediction [48.029602040786685]
本稿では,ビデオペース予測による自己指導型映像表現学習の課題に対処する。
人間の視覚系がビデオのペースに敏感であるという観察に由来する。
我々は、異なるペースでトレーニングクリップをランダムにサンプリングし、ニューラルネットワークに各ビデオクリップのペースを特定するよう依頼する。
論文 参考訳(メタデータ) (2020-08-13T12:40:24Z) - Spatio-Temporal Event Segmentation and Localization for Wildlife
Extended Videos [6.279863832853343]
本稿では,時間的イベントセグメンテーションが可能な自己教師型予測フレームワークを提案する。
私たちは、標準的なディープラーニングのバックボーンによって計算される高レベルの機能の予測に頼っています。
野生生物モニタリングデータの10日間 (254時間) のビデオに対するアプローチを実演する。
論文 参考訳(メタデータ) (2020-05-05T20:11:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。