論文の概要: Learning reusable concepts across different egocentric video understanding tasks
- arxiv url: http://arxiv.org/abs/2505.24690v1
- Date: Fri, 30 May 2025 15:14:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.026307
- Title: Learning reusable concepts across different egocentric video understanding tasks
- Title(参考訳): 多様なエゴセントリックなビデオ理解タスクにおける再利用可能な概念の学習
- Authors: Simone Alberto Peirone, Francesca Pistilli, Antonio Alliegro, Tatiana Tommasi, Giuseppe Averta,
- Abstract要約: Hier-EgoPackは、下流タスク間で実行できるタスクパースペクティブのコレクションを作成することができるフレームワークである。
本稿では、下流タスクにまたがるタスクの視点の集合を作成できる統合フレームワークであるHier-EgoPackについて紹介する。
- 参考スコア(独自算出の注目度): 12.709881592333995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our comprehension of video streams depicting human activities is naturally multifaceted: in just a few moments, we can grasp what is happening, identify the relevance and interactions of objects in the scene, and forecast what will happen soon, everything all at once. To endow autonomous systems with such holistic perception, learning how to correlate concepts, abstract knowledge across diverse tasks, and leverage tasks synergies when learning novel skills is essential. In this paper, we introduce Hier-EgoPack, a unified framework able to create a collection of task perspectives that can be carried across downstream tasks and used as a potential source of additional insights, as a backpack of skills that a robot can carry around and use when needed.
- Abstract(参考訳): 人間の活動を描いたビデオストリームの理解は、自然に多面的です – ほんの数秒で何が起きているのかを把握し、シーン内のオブジェクトの関連性と相互作用を特定し、すぐに何が起こるのかを予測できます。
このような総合的な認識で自律システムを実現するためには、概念の相関、多様なタスクにおける抽象的な知識の習得、新しいスキルを学ぶ際にはタスクのシナジーを活用することが不可欠である。
本稿では,下流のタスクにまたがって実行可能なタスク視点の集合を構築可能な統合フレームワークであるHier-EgoPackを紹介する。
関連論文リスト
- Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning [69.71072181304066]
本稿では,擬似ヒューマノイドを用いた視覚駆動全身制御フレームワークであるPerceptive Dexterous Control (PDC)を紹介する。
PDCは、タスク仕様のためのエゴセントリックなビジョンのみを運用し、ビジュアルキューによるオブジェクト検索、ターゲット配置、スキル選択を可能にする。
強化学習によるスクラッチからのトレーニングは,能動探索などの創発的な行動を引き起こす可能性があることを示す。
論文 参考訳(メタデータ) (2025-05-18T07:33:31Z) - Hier-EgoPack: Hierarchical Egocentric Video Understanding with Diverse Task Perspectives [12.709881592333995]
多様な時間的粒度の推論を可能にすることで,EgoPackを進化させるHier-EgoPackを紹介した。
クリップレベルの推論とフレームレベルの推論の両方を含む複数のEgo4dベンチマークに対するアプローチを評価した。
論文 参考訳(メタデータ) (2025-02-04T17:03:49Z) - A Backpack Full of Skills: Egocentric Video Understanding with Diverse
Task Perspectives [5.515192437680944]
人間の行動の共有時間モデリングを最小限のオーバーヘッドで組み合わせたビデオ理解への統一的アプローチを模索する。
EgoPackは、下流のタスクにまたがって実行され、追加の洞察源となる可能性のあるタスクパースペクティブのコレクションを作成するソリューションである。
提案手法の有効性と効率を4つのEgo4Dベンチマークで示す。
論文 参考訳(メタデータ) (2024-03-05T15:18:02Z) - The Power of the Senses: Generalizable Manipulation from Vision and
Touch through Masked Multimodal Learning [60.91637862768949]
強化学習環境における視覚的・触覚的情報を融合するためのマスク付きマルチモーダル学習(M3L)を提案する。
M3Lは、マスク付きオートエンコーディングに基づいて、ポリシーと視覚触覚表現を学習する。
視覚と触覚の両方の観察を行い、3つの模擬環境におけるM3Lの評価を行った。
論文 参考訳(メタデータ) (2023-11-02T01:33:00Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale [103.7609761511652]
大規模集団ロボット学習システムが,行動のレパートリーを同時に獲得できることを示す。
新しいタスクは、以前学んだタスクから継続的にインスタンス化できる。
我々は,7台のロボットから収集したデータを用いて,実世界のタスク12組でシステムを訓練し,評価する。
論文 参考訳(メタデータ) (2021-04-16T16:38:02Z) - Towards General Purpose Vision Systems [34.90633886653062]
本稿では,画像と自然言語タスク記述を受理し,境界ボックス,信頼度,テキストを出力するタスク非依存視覚言語システムを提案する。
システムを複数のスキルを同時に学習し,新しいスキル概念の組み合わせでタスクを実行し,新しいスキルを効率的にかつ忘れずに学習する能力を評価する。
論文 参考訳(メタデータ) (2021-04-01T19:35:21Z) - HALMA: Humanlike Abstraction Learning Meets Affordance in Rapid Problem
Solving [104.79156980475686]
人間は自然主義的タスクの構造に応じて構成的および因果的抽象化、つまり知識を学ぶ。
エージェントがその知識をどのように表現するかには、知覚、概念、アルゴリズムの3段階の一般化がある、と我々は主張する。
このベンチマークは、ビジュアルコンセプト開発と迅速な問題解決のための新しいタスクドメイン、HALMAを中心にしています。
論文 参考訳(メタデータ) (2021-02-22T20:37:01Z) - Intrinsically Motivated Open-Ended Multi-Task Learning Using Transfer
Learning to Discover Task Hierarchy [0.0]
オープンエンド環境では、ロボットは階層的強化学習において複数のパラメータ化された制御タスクを学習する必要がある。
最も複雑なタスクは、より単純なタスクから知識を転送することでより簡単に学習でき、タスクにアクションの複雑さを適用することでより早く学習できることを示します。
複雑な行動のタスク指向表現(手順と呼ばれる)を提案し、オンラインのタスク関係とアクションプリミティブの無制限のシーケンスを学び、環境の異なる可観測性を制御する。
論文 参考訳(メタデータ) (2021-02-19T10:44:08Z) - LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task
Activities [119.88381048477854]
LEMMAデータセットを導入し、細心の注意深い設定で、行方不明な次元に対処するための単一の家を提供する。
我々は、人間と物体の相互作用による原子間相互作用を密に注釈し、日常の活動の構成性、スケジューリング、割り当ての土台として提供する。
この取り組みにより、マシンビジョンコミュニティは、目標指向の人間活動を調べ、現実世界におけるタスクのスケジューリングと割り当てをさらに研究できることを期待します。
論文 参考訳(メタデータ) (2020-07-31T00:13:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。