論文の概要: Learning to Discriminate Information for Online Action Detection:
Analysis and Application
- arxiv url: http://arxiv.org/abs/2109.03393v2
- Date: Thu, 9 Sep 2021 00:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 10:25:39.695671
- Title: Learning to Discriminate Information for Online Action Detection:
Analysis and Application
- Title(参考訳): オンライン行動検出のための情報識別学習 : 分析と応用
- Authors: Sumin Lee, Hyunjun Eun, Jinyoung Moon, Seokeon Choi, Yoonhyung Kim,
Chanho Jung, and Changick Kim
- Abstract要約: 本稿では,現在進行中の行動と他者の情報関連性を明確に識別する情報識別ユニット(IDU)を提案する。
また,行動予測のための情報統合ユニット(IIU)を新たに提案する。
我々のIIUは、疑似アクションラベルやRGBフレームとしてIDUからの出力を利用して、観察されたアクションの豊富な特徴を効果的に学習する。
- 参考スコア(独自算出の注目度): 32.4410197207228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online action detection, which aims to identify an ongoing action from a
streaming video, is an important subject in real-world applications. For this
task, previous methods use recurrent neural networks for modeling temporal
relations in an input sequence. However, these methods overlook the fact that
the input image sequence includes not only the action of interest but
background and irrelevant actions. This would induce recurrent units to
accumulate unnecessary information for encoding features on the action of
interest. To overcome this problem, we propose a novel recurrent unit, named
Information Discrimination Unit (IDU), which explicitly discriminates the
information relevancy between an ongoing action and others to decide whether to
accumulate the input information. This enables learning more discriminative
representations for identifying an ongoing action. In this paper, we further
present a new recurrent unit, called Information Integration Unit (IIU), for
action anticipation. Our IIU exploits the outputs from IDU as pseudo action
labels as well as RGB frames to learn enriched features of observed actions
effectively. In experiments on TVSeries and THUMOS-14, the proposed methods
outperform state-of-the-art methods by a significant margin in online action
detection and action anticipation. Moreover, we demonstrate the effectiveness
of the proposed units by conducting comprehensive ablation studies.
- Abstract(参考訳): ストリーミングビデオから進行中のアクションを特定することを目的としたオンラインアクション検出は、現実世界のアプリケーションにおいて重要なテーマである。
このタスクでは、従来の手法では、入力シーケンス内の時間関係をモデル化するために、リカレントニューラルネットワークを使用する。
しかし、これらの手法は、入力画像列が興味の作用だけでなく、背景および無関係な作用を含むという事実を無視する。
これにより、興味ある動作に関する特徴を符号化するために不要な情報を蓄積する繰り返しユニットが誘導される。
そこで本研究では,現在進行中の行動と他者との情報の関連性を明示的に判別し,入力情報を蓄積するか否かを判断する新しいリカレントユニットである「情報識別ユニット(idu)」を提案する。
これにより、進行中のアクションを識別するためのより識別的な表現を学ぶことができる。
本稿ではさらに,行動予測のための情報統合ユニット(iiu)と呼ばれる新しいリカレントユニットを提案する。
iduの出力を擬似アクションラベルとrgbフレームとして活用し,観察したアクションの充実した特徴を効果的に学習する。
テレビシリーズとTHUMOS-14の実験において,提案手法はオンライン行動検出と行動予測において有意差で最先端の手法より優れていた。
さらに,包括的アブレーション研究を行うことにより,提案手法の有効性を示す。
関連論文リスト
- An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - ActAR: Actor-Driven Pose Embeddings for Video Action Recognition [12.043574473965318]
ビデオにおけるヒューマンアクション認識(HAR)は、ビデオ理解のコアタスクの1つである。
我々は,赤外スペクトルにおける効率的な人間の行動を認識することを同時に学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-04-19T05:12:24Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Information Elevation Network for Fast Online Action Detection [4.203274985072923]
オンラインアクション検出(オンラインアクション検出、OAD)は、ストリーミングビデオ内のビデオセグメントを入力として受信し、その中の進行中のアクションを識別するタスクである。
我々は,現在の行動に関連する過去の情報を持ち上げて蓄積する新しい情報高揚ユニット(IEU)を導入する。
我々は、情報高揚ネットワーク(IEN)と呼ばれるIEUを用いて、効率的で効果的なOADネットワークを設計する。
論文 参考訳(メタデータ) (2021-09-28T09:02:15Z) - Learning End-to-End Action Interaction by Paired-Embedding Data
Augmentation [10.857323240766428]
新しいInteractive Action Translation (IAT)タスクは、ラベルなしのインタラクティブなペアからエンドツーエンドのアクションインタラクションを学ぶことを目的としている。
Paired-Embedding (PE) 法を提案する。
2つのデータセットの実験結果から,本手法の優れた効果と幅広い応用可能性が確認された。
論文 参考訳(メタデータ) (2020-07-16T01:54:16Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z) - A Novel Online Action Detection Framework from Untrimmed Video Streams [19.895434487276578]
本稿では,時間的に順序付けられたサブクラスの集合として行動を検出する新しいオンライン行動検出フレームワークを提案する。
提案手法は,映像の長さを変化させることで,人間の行動における高いクラス内変動を学習できるようにする。
論文 参考訳(メタデータ) (2020-03-17T14:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。