論文の概要: Are current long-term video understanding datasets long-term?
- arxiv url: http://arxiv.org/abs/2308.11244v1
- Date: Tue, 22 Aug 2023 07:39:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 18:38:11.693509
- Title: Are current long-term video understanding datasets long-term?
- Title(参考訳): 現在の長期ビデオ理解データセットは長期的なものか?
- Authors: Ombretta Strafforello, Klamer Schutte, Jan van Gemert
- Abstract要約: 本稿では,映像データセットが長期的行動認識のモデル評価にどの程度適しているかを評価する手法を提案する。
この定義は,既存の3つの実世界のデータセット上での長期的分類タスクで検証する。
- 参考スコア(独自算出の注目度): 9.903211874914822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many real-world applications, from sport analysis to surveillance, benefit
from automatic long-term action recognition. In the current deep learning
paradigm for automatic action recognition, it is imperative that models are
trained and tested on datasets and tasks that evaluate if such models actually
learn and reason over long-term information. In this work, we propose a method
to evaluate how suitable a video dataset is to evaluate models for long-term
action recognition. To this end, we define a long-term action as excluding all
the videos that can be correctly recognized using solely short-term
information. We test this definition on existing long-term classification tasks
on three popular real-world datasets, namely Breakfast, CrossTask and LVU, to
determine if these datasets are truly evaluating long-term recognition. Our
study reveals that these datasets can be effectively solved using shortcuts
based on short-term information. Following this finding, we encourage long-term
action recognition researchers to make use of datasets that need long-term
information to be solved.
- Abstract(参考訳): スポーツ分析から監視まで、多くの現実世界の応用は、自動長期行動認識の恩恵を受ける。
現在のdeep learning paradigm for automatic action recognitionでは、モデルがデータセットやタスクで訓練され、テストされることが不可欠である。
本研究では,ビデオデータセットが長期行動認識モデルにどの程度適しているかを評価する手法を提案する。
この目的のために、短期的情報のみを使用して正しく認識できる全ての動画を除外する長期行動を定義する。
この定義を既存の3つの現実世界のデータセット(朝食、クロスタスク、lvu)で検証し、これらのデータセットが本当に長期的な認識を評価するかどうかを判定する。
本研究は,短期情報に基づくショートカットを用いて,これらのデータセットを効果的に解決できることを示す。
この発見に続いて、長期的な行動認識研究者に対して、長期的な情報を必要とするデータセットの活用を奨励する。
関連論文リスト
- Graph Based Long-Term And Short-Term Interest Model for Click-Through
Rate Prediction [8.679270588565398]
GLSMと呼ばれるグラフに基づく長期短期利害モデルを提案する。
長期ユーザ行動のキャプチャのための多目的グラフ構造と、短期情報モデリングのための多シナリオ異種シーケンスモデルと、長期および短期行動からの融合情報に対する適応的融合機構とから構成される。
論文 参考訳(メタデータ) (2023-06-05T07:04:34Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - General Place Recognition Survey: Towards the Real-world Autonomy Age [36.49196034588173]
場所認識コミュニティは、過去20年間に驚くべき進歩を遂げてきた。
複雑な実世界のシナリオにおいて、期待できる位置認識性能を示す手法はほとんどない。
本論文は,場所認識コミュニティと長期ロボット工学の自律性に関心を持つ研究者を対象としたチュートリアルである。
論文 参考訳(メタデータ) (2022-09-09T19:37:05Z) - Object Goal Navigation using Data Regularized Q-Learning [9.65323691689801]
Object Goal Navigationでは、ロボットが未確認の環境で対象のオブジェクトクラスのインスタンスを探し、ナビゲートする必要がある。
我々のフレームワークは、時間とともに環境のセマンティックマップを段階的に構築し、その後、長期的目標を何度も選択します。
長期的なゴール選択は、視覚に基づく深層強化学習問題として定式化される。
論文 参考訳(メタデータ) (2022-08-27T13:26:30Z) - Video Action Detection: Analysing Limitations and Challenges [70.01260415234127]
ビデオ行動検出における既存のデータセットを分析し,その限界について議論する。
静的画像から映像を区別する重要な特性である時間的側面を解析するバイアスネススタディを実行する。
このような極端な実験は、注意深いモデリングを必要とする既存の手法に忍び込んだバイアスの存在を示している。
論文 参考訳(メタデータ) (2022-04-17T00:42:14Z) - A Comparative Review of Recent Few-Shot Object Detection Algorithms [0.0]
ラベル付きデータで新しいクラスに適応するために学習するオブジェクトの少ない検出は、命令的で長期にわたる問題である。
近年の研究では、ターゲットドメインを監督せずに追加データセットに暗黙の手がかりを使って、少数のショット検出器が堅牢なタスク概念を洗練させる方法が研究されている。
論文 参考訳(メタデータ) (2021-10-30T07:57:11Z) - STEP: Segmenting and Tracking Every Pixel [107.23184053133636]
新しいベンチマークを示す: Segmenting and Tracking Every Pixel (STEP)
私たちの仕事は、空間領域と時間領域の両方で密な解釈を必要とする現実世界の設定で、このタスクをターゲットとする最初のものです。
性能を測定するために,新しい評価指標と追跡品質(STQ)を提案する。
論文 参考訳(メタデータ) (2021-02-23T18:43:02Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z) - Sequential Recommender via Time-aware Attentive Memory Network [67.26862011527986]
本稿では,注意機構と繰り返し単位を改善するための時間ゲーティング手法を提案する。
また,長期と短期の嗜好を統合するマルチホップ・タイムアウェア・アテンテーティブ・メモリ・ネットワークを提案する。
提案手法は,候補探索タスクに対してスケーラブルであり,ドット積に基づくTop-Kレコメンデーションのための潜在因数分解の非線形一般化とみなすことができる。
論文 参考訳(メタデータ) (2020-05-18T11:29:38Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。