論文の概要: Toyota Smarthome Untrimmed: Real-World Untrimmed Videos for Activity
Detection
- arxiv url: http://arxiv.org/abs/2010.14982v2
- Date: Fri, 10 Jun 2022 10:50:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 05:39:31.600833
- Title: Toyota Smarthome Untrimmed: Real-World Untrimmed Videos for Activity
Detection
- Title(参考訳): トヨタのスマートホーム「Toyota Smart Home Untrimmed」(動画あり)
- Authors: Rui Dai, Srijan Das, Saurav Sharma, Luca Minciullo, Lorenzo Garattoni,
Francois Bremond, Gianpiero Francesca
- Abstract要約: 私たちは、Toyota Smarthome Untrimmedという、いくつかの現実的な課題を特徴とする、新たな毎日のデータセットを導入しました。
このデータセットには、基本的な、複合的なアクティビティや、オブジェクトとのインタラクションを含むアクティビティを含む、密集したアノテーションが含まれている。
本研究では,現在の最先端手法が,TSデータセット上での良好な性能を達成できないことを示す。
本稿では,我々のデータセットが提供する新たな課題に取り組むために,アクティビティ検出のための新しいベースライン手法を提案する。
- 参考スコア(独自算出の注目度): 6.682959425576476
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Designing activity detection systems that can be successfully deployed in
daily-living environments requires datasets that pose the challenges typical of
real-world scenarios. In this paper, we introduce a new untrimmed daily-living
dataset that features several real-world challenges: Toyota Smarthome Untrimmed
(TSU). TSU contains a wide variety of activities performed in a spontaneous
manner. The dataset contains dense annotations including elementary, composite
activities and activities involving interactions with objects. We provide an
analysis of the real-world challenges featured by our dataset, highlighting the
open issues for detection algorithms. We show that current state-of-the-art
methods fail to achieve satisfactory performance on the TSU dataset. Therefore,
we propose a new baseline method for activity detection to tackle the novel
challenges provided by our dataset. This method leverages one modality (i.e.
optic flow) to generate the attention weights to guide another modality (i.e
RGB) to better detect the activity boundaries. This is particularly beneficial
to detect activities characterized by high temporal variance. We show that the
method we propose outperforms state-of-the-art methods on TSU and on another
popular challenging dataset, Charades.
- Abstract(参考訳): 日常の環境でうまくデプロイできるアクティビティ検出システムを設計するには、実際のシナリオで典型的な課題となるデータセットが必要となる。
本稿では,Toyota Smarthome Untrimmed (TSU) という,現実の課題を特徴とする,新たな日食データセットを提案する。
ツは自然に行う様々な活動を含んでいる。
データセットには、基本的な複合アクティビティやオブジェクトとのインタラクションを含むアクティビティを含む、密集したアノテーションが含まれている。
当社のデータセットが抱える現実の課題を分析し,検出アルゴリズムのオープンイシューを強調する。
現状の手法では,tsuデータセットでは十分な性能が得られないことを示す。
そこで本研究では,データセットがもたらす新たな課題に取り組むために,アクティビティ検出のための新しいベースライン手法を提案する。
この方法は1つのモード(すなわち光の流れ)を利用して注意重みを発生させ、別のモード(すなわちRGB)を誘導し、活動境界をよりよく検出する。
これは、高い時間的ばらつきによって特徴づけられる活動を検出するのに特に有用である。
提案手法は, TS と他の挑戦的データセットである Charades において, 最先端の手法よりも優れていることを示す。
関連論文リスト
- Towards Student Actions in Classroom Scenes: New Dataset and Baseline [43.268586725768465]
複雑な教室シーンを対象とした,SAV(Multi-label student action video)データセットを提案する。
データセットは、758の教室から、4,324の慎重にトリミングされたビデオクリップで構成され、それぞれに15の教室で生徒が表示するアクションがラベル付けされている。
論文 参考訳(メタデータ) (2024-09-02T03:44:24Z) - Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - DOZE: A Dataset for Open-Vocabulary Zero-Shot Object Navigation in Dynamic Environments [28.23284296418962]
Zero-Shot Object Navigation (ZSON)は、エージェントが不慣れな環境で見えないオブジェクトを自律的に見つけ、アプローチすることを要求する。
ZSONアルゴリズムを開発するための既存のデータセットには、動的な障害、オブジェクトの多様性、シーンテキストが考慮されていない。
動的環境(DOZE)におけるオープンボキャブラリゼロショットオブジェクトナビゲーションのためのデータセットを提案する。
DOZEは18k以上のタスクを持つ10の高忠実な3Dシーンで構成されており、複雑な動的現実世界のシナリオを模倣することを目的としている。
論文 参考訳(メタデータ) (2024-02-29T10:03:57Z) - Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - Cross-Domain HAR: Few Shot Transfer Learning for Human Activity
Recognition [0.2944538605197902]
本稿では,HARデータセットを有効な転送学習に利用するための経済的なアプローチを提案する。
本稿では,教師が学習する自己学習パラダイムに則って,新たな伝達学習フレームワークであるクロスドメインHARを紹介する。
本手法の有効性を,撮影活動認識のシナリオで実証する。
論文 参考訳(メタデータ) (2023-10-22T19:13:25Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。