論文の概要: Bringing Online Egocentric Action Recognition into the wild
- arxiv url: http://arxiv.org/abs/2211.03004v1
- Date: Sun, 6 Nov 2022 01:41:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 17:21:15.084610
- Title: Bringing Online Egocentric Action Recognition into the wild
- Title(参考訳): オンラインエゴセントリックな行動認識を野生に持ち込む
- Authors: Gabriele Goletto, Mirco Planamente, Barbara Caputo and Giuseppe Averta
- Abstract要約: 私たちは、エゴセントリックなビジョンモデルが現実的なアプリケーションに考慮すべき境界を設定しました。
本稿では,既存アーキテクチャの迅速な再資源化を可能にする新しいモデル非依存手法を提案する。
- 参考スコア(独自算出の注目度): 18.02166620265241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To enable a safe and effective human-robot cooperation, it is crucial to
develop models for the identification of human activities. Egocentric vision
seems to be a viable solution to solve this problem, and therefore many works
provide deep learning solutions to infer human actions from first person
videos. However, although very promising, most of these do not consider the
major challenges that comes with a realistic deployment, such as the
portability of the model, the need for real-time inference, and the robustness
with respect to the novel domains (i.e., new spaces, users, tasks). With this
paper, we set the boundaries that egocentric vision models should consider for
realistic applications, defining a novel setting of egocentric action
recognition in the wild, which encourages researchers to develop novel,
applications-aware solutions. We also present a new model-agnostic technique
that enables the rapid repurposing of existing architectures in this new
context, demonstrating the feasibility to deploy a model on a tiny device
(Jetson Nano) and to perform the task directly on the edge with very low energy
consumption (2.4W on average at 50 fps).
- Abstract(参考訳): 安全かつ効果的な人間とロボットの協力を可能にするためには,人間活動の識別モデルの開発が不可欠である。
エゴセントリックなビジョンは、この問題を解決するための有効なソリューションであると思われるため、ファーストパーソンビデオからのヒューマンアクションを推論するためのディープラーニングソリューションを提供する作品が多い。
しかし、非常に有望だが、そのほとんどは、モデルのポータビリティ、リアルタイム推論の必要性、新しいドメイン(すなわち新しいスペース、ユーザ、タスク)に対する堅牢性など、現実的なデプロイメントに伴う大きな課題を考慮していない。
本稿では,エゴセントリックな視覚モデルが現実的な応用のために考慮すべき境界を設定し,エゴセントリックな行動認識の新たな設定を定義する。
また,この新たなコンテキストにおいて既存アーキテクチャの迅速な再調達を可能にし,小型デバイス(Jetson Nano)にモデルをデプロイし,極めて低消費電力(平均2.4W,50fps)でエッジ上で直接タスクを実行することが可能であることを示す。
関連論文リスト
- Evaluating the Effectiveness of Video Anomaly Detection in the Wild: Online Learning and Inference for Real-world Deployment [2.1374208474242815]
Video Anomaly Detection (VAD) は、監視から医療まで幅広い応用の鍵となる、ビデオストリームにおける異常な活動を特定する。
実生活環境でのVADに取り組むことは、人間の行動の動的な性質、環境の変化、ドメインシフトによって大きな課題となる。
オンライン学習は、モデルを新しい情報に継続的に適応させることによって、この問題を軽減するための潜在的戦略である。
論文 参考訳(メタデータ) (2024-04-29T14:47:32Z) - Smart Help: Strategic Opponent Modeling for Proactive and Adaptive Robot Assistance in Households [30.33911147366425]
Smart Helpは、多様な障害を持つ人間のエージェントに対して、積極的にかつ適応的なサポートを提供することを目的としている。
本稿では,主エージェントの能力と目標の微妙な理解を提供する,イノベーティブな対戦相手モデリングモジュールを紹介する。
この結果から,AIを組み込んだ支援ロボットが,脆弱なグループの健康向上に寄与する可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-13T13:03:59Z) - Self-supervised novel 2D view synthesis of large-scale scenes with
efficient multi-scale voxel carving [77.07589573960436]
実シーンの新たなビューを生成するために,効率的なマルチスケールのボクセル彫刻手法を提案する。
我々の最終的な高解像度出力は、ボクセル彫刻モジュールによって自動的に生成されるデータに基づいて効率よく自己学習される。
実環境における複雑で大規模なシーンにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-06-26T13:57:05Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - Action Transformer: A Self-Attention Model for Short-Time Human Action
Recognition [5.123810256000945]
Action Transformer (AcT) は、畳み込み層、繰り返し層、注意層を混在させる、より精巧なネットワークを一貫して上回る自己意図型アーキテクチャである。
AcTは、小さな時間ウィンドウ上の2Dポーズ表現を利用し、正確で効果的なリアルタイムパフォーマンスのための低レイテンシソリューションを提供する。
論文 参考訳(メタデータ) (2021-07-01T16:53:16Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - Real-time Active Vision for a Humanoid Soccer Robot Using Deep
Reinforcement Learning [0.8701566919381223]
本研究では,ヒューマノイドサッカープレイングロボットの深部強化学習手法を用いたアクティブビジョン手法を提案する。
提案手法は,ロボットの視点を適応的に最適化し,自己ローカライゼーションのための最も有用なランドマークを取得する。
論文 参考訳(メタデータ) (2020-11-27T17:29:48Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Active Reward Learning for Co-Robotic Vision Based Exploration in
Bandwidth Limited Environments [40.47144302684855]
本稿では,新しい,科学的に関係のある画像の収集場所を自律的に決定する必要があるロボットに対して,新しいPOMDP問題定式化を提案する。
我々は,そのようなロボットの観察モデル,報酬モデル,コミュニケーション戦略の制約と設計原則を導出する。
本稿では,ロボットがオンラインの「レグレット」を最小化するためのクエリ作成に基づく,新たなアクティブな報酬学習戦略を提案する。
論文 参考訳(メタデータ) (2020-03-10T21:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。