論文の概要: A Backpack Full of Skills: Egocentric Video Understanding with Diverse
Task Perspectives
- arxiv url: http://arxiv.org/abs/2403.03037v1
- Date: Tue, 5 Mar 2024 15:18:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 14:18:23.250113
- Title: A Backpack Full of Skills: Egocentric Video Understanding with Diverse
Task Perspectives
- Title(参考訳): スキル満載のバックパック:多様なタスクパースペクティブを備えたエゴセントリックビデオ理解
- Authors: Simone Alberto Peirone, Francesca Pistilli, Antonio Alliegro, Giuseppe
Averta
- Abstract要約: 人間の行動の共有時間モデリングを最小限のオーバーヘッドで組み合わせたビデオ理解への統一的アプローチを模索する。
EgoPackは、下流のタスクにまたがって実行され、追加の洞察源となる可能性のあるタスクパースペクティブのコレクションを作成するソリューションである。
提案手法の有効性と効率を4つのEgo4Dベンチマークで示す。
- 参考スコア(独自算出の注目度): 5.515192437680944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human comprehension of a video stream is naturally broad: in a few instants,
we are able to understand what is happening, the relevance and relationship of
objects, and forecast what will follow in the near future, everything all at
once. We believe that - to effectively transfer such an holistic perception to
intelligent machines - an important role is played by learning to correlate
concepts and to abstract knowledge coming from different tasks, to
synergistically exploit them when learning novel skills. To accomplish this, we
seek for a unified approach to video understanding which combines shared
temporal modelling of human actions with minimal overhead, to support multiple
downstream tasks and enable cooperation when learning novel skills. We then
propose EgoPack, a solution that creates a collection of task perspectives that
can be carried across downstream tasks and used as a potential source of
additional insights, as a backpack of skills that a robot can carry around and
use when needed. We demonstrate the effectiveness and efficiency of our
approach on four Ego4D benchmarks, outperforming current state-of-the-art
methods.
- Abstract(参考訳): ビデオストリームの人間による理解は自然に広く、いくつかの瞬間において、私たちは何が起きているのか、オブジェクトの関連性と関係性を理解し、近い将来に何が続くのか、すべてを同時に予測することができます。
このような全体主義的な認識をインテリジェントな機械に効果的に移すには、概念を関連付け、異なるタスクから来る抽象的な知識を学習し、新しいスキルを学ぶときにそれらを相乗的に活用するために重要な役割が担うと信じています。
そこで我々は,人間の行動の共有時間的モデリングを最小限のオーバーヘッドで組み合わせ,複数の下流タスクをサポートし,新しいスキルを習得する際の協調を可能にする,映像理解への統一的アプローチを模索する。
EgoPackは、下流のタスクにまたがって実行可能で、必要な時にロボットが持ち運べるスキルのバックパックとして、潜在的に追加的な洞察の源として使用できるタスクの視点の集合を生成するソリューションである。
我々は4つのego4dベンチマークにおけるアプローチの有効性と効率を実証する。
関連論文リスト
- Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - Identifying Auxiliary or Adversarial Tasks Using Necessary Condition
Analysis for Adversarial Multi-task Video Understanding [34.75145779372538]
本稿では,モデルが適切に動作すべき補助タスクと,モデルがうまく動作すべきでない逆タスクの両方を組み込むことで,マルチタスク学習の一般化概念を提案する。
提案する新たなフレームワークであるAMT(Adversarial Multi-Task Neural Networks)は,NAAがシーン認識であると判断した敵タスクをペナルティ化する。
提案手法は, 精度を3%向上させるとともに, 相関バイアスのシーン特徴ではなく, アクション特徴への参画を促す。
論文 参考訳(メタデータ) (2022-08-22T06:26:11Z) - Unsupervised Reinforcement Learning for Transferable Manipulation Skill
Discovery [22.32327908453603]
ロボット工学における現在の強化学習(RL)は、しばしば新しい下流タスクへの一般化の難しさを経験する。
本稿では,タスク固有の報酬にアクセスできることなく,タスクに依存しない方法でエージェントを事前訓練するフレームワークを提案する。
提案手法は,最も多様なインタラクション動作を実現し,下流タスクのサンプル効率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-04-29T06:57:46Z) - MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale [103.7609761511652]
大規模集団ロボット学習システムが,行動のレパートリーを同時に獲得できることを示す。
新しいタスクは、以前学んだタスクから継続的にインスタンス化できる。
我々は,7台のロボットから収集したデータを用いて,実世界のタスク12組でシステムを訓練し,評価する。
論文 参考訳(メタデータ) (2021-04-16T16:38:02Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z) - SKID RAW: Skill Discovery from Raw Trajectories [23.871402375721285]
すべてのスキルではなく、完全なタスクの実行を示すことが望ましい。
軌跡を反復パターンに分割することを同時に学習する新しい手法を提案する。
このアプローチは、スキルのシーケンスを理解するのに使用できるスキルコンディショニングを学習する。
論文 参考訳(メタデータ) (2021-03-26T17:27:13Z) - Learning Transferable Concepts in Deep Reinforcement Learning [0.7161783472741748]
感覚入力の離散的な表現を学習することで、複数のタスクに共通するハイレベルな抽象化が得られることを示す。
特に,情報理論のアプローチに従って,自己超越によってそのような表現を学習することは可能であることを示す。
本手法は, 未知タスクと未知タスクの両方において, サンプル効率を高めるための, 機関車および最適制御タスクの概念を学習することができる。
論文 参考訳(メタデータ) (2020-05-16T04:45:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。