論文の概要: SAFCAR: Structured Attention Fusion for Compositional Action Recognition
- arxiv url: http://arxiv.org/abs/2012.02109v2
- Date: Thu, 17 Dec 2020 21:15:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 14:52:24.980157
- Title: SAFCAR: Structured Attention Fusion for Compositional Action Recognition
- Title(参考訳): SAFCAR:構成行動認識のための構造化注意融合
- Authors: Tae Soo Kim, Gregory D. Hager
- Abstract要約: 我々は,物体検出からの情報を組み合わせた新しい自己注意機構(Structured Attention Fusion, SAF)を開発し, 検証する。
提案手法は, 従来の技術システムよりも, 新規な動詞合成を効果的に認識するものである。
我々は,Something-V2データセットの課題であるSomesing-Elseタスクに対するアプローチを検証する。
- 参考スコア(独自算出の注目度): 47.43959215267547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a general framework for compositional action recognition -- i.e.
action recognition where the labels are composed out of simpler components such
as subjects, atomic-actions and objects. The main challenge in compositional
action recognition is that there is a combinatorially large set of possible
actions that can be composed using basic components. However, compositionality
also provides a structure that can be exploited. To do so, we develop and test
a novel Structured Attention Fusion (SAF) self-attention mechanism to combine
information from object detections, which capture the time-series structure of
an action, with visual cues that capture contextual information. We show that
our approach recognizes novel verb-noun compositions more effectively than
current state of the art systems, and it generalizes to unseen action
categories quite efficiently from only a few labeled examples. We validate our
approach on the challenging Something-Else tasks from the
Something-Something-V2 dataset. We further show that our framework is flexible
and can generalize to a new domain by showing competitive results on the
Charades-Fewshot dataset.
- Abstract(参考訳): 構成的行動認識のための一般的な枠組みを提示する。
アクション認識では、ラベルはサブジェクトやアトミックアクション、オブジェクトといった単純なコンポーネントで構成されている。
構成的行動認識の最大の課題は、基本的なコンポーネントを使って構成できる、組み合わせ可能なアクションのセットが多数存在することである。
しかし、構成性はまた、利用可能な構造を提供する。
そこで我々は,アクションの時系列構造をキャプチャする物体検出情報と,文脈情報をキャプチャする視覚手がかりとを組み合わせた,新しい構造化注意融合(saf)自己照準機構を開発し,検証する。
提案手法は,新しい動詞句の合成を,現在の技術システムよりも効果的に認識し,いくつかのラベル付き例から非常に効率的なアクションカテゴリーに一般化することを示す。
我々は,Something-V2データセットの課題であるSomesing-Elseタスクに対するアプローチを検証する。
さらに、当社のフレームワークはフレキシブルで、Charades-Fewshotデータセット上で競合する結果を示すことによって、新たなドメインに一般化可能であることを示す。
関連論文リスト
- Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition [21.655278000690686]
エンドツーエンドのオブジェクト中心のアクション認識フレームワークを提案する。
同時に1つのステージで検出と相互作用の推論を行う。
我々はSomes-ElseとIkea-Assemblyという2つのデータセットで実験を行う。
論文 参考訳(メタデータ) (2024-04-18T05:06:12Z) - REACT: Recognize Every Action Everywhere All At Once [8.10024991952397]
グループ・アクティビティ・デコーダ(GAR)はコンピュータビジョンにおける基本的な問題であり、スポーツ分析、監視、社会場面の理解に様々な応用がある。
本稿では,変換器エンコーダ・デコーダモデルにインスパイアされたREACTアーキテクチャを提案する。
提案手法は,グループ活動の認識と理解において優れた精度を示すとともに,最先端のGAR手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-11-27T20:48:54Z) - Learning Attention Propagation for Compositional Zero-Shot Learning [71.55375561183523]
コンポジションアテンション・プロパゲード・エンベディング(CAPE)と呼ばれる新しい手法を提案する。
CAPEは、この構造を識別し、それらの間の知識を伝播して、目に見えないすべての構成に対するクラス埋め込みを学ぶ。
提案手法は,3つの公開ベンチマークに対して,新しい最先端のベンチマークを設定するために,従来のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T19:44:11Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Nested and Balanced Entity Recognition using Multi-Task Learning [0.0]
本稿では,重複するケースとネストされたケースの複雑さを扱う部分層ネットワークアーキテクチャを提案する。
私たちは、概念(CR)と名前付きエンティティ(NER)という2種類のエンティティを認識するために、このアーキテクチャを訓練し、評価します。
提案手法は最先端のNER性能を実現し,従来のCR手法よりも優れていた。
論文 参考訳(メタデータ) (2021-06-11T07:52:32Z) - Home Action Genome: Cooperative Compositional Action Understanding [33.69990813932372]
アクション認識に関する既存の研究は、アクティビティをビデオで発生したモノリシックなイベントとして扱う。
協調構成行動理解(CCAU)は階層的行動認識のための協調学習フレームワークである。
単サンプルで28.6%のmAPを達成し, 複数ショット動作認識におけるコラーニング合成の有用性を実証した。
論文 参考訳(メタデータ) (2021-05-11T17:42:47Z) - Inferring Temporal Compositions of Actions Using Probabilistic Automata [61.09176771931052]
本稿では,動作の時間的構成を意味正規表現として表現し,確率的オートマトンを用いた推論フレームワークを提案する。
我々のアプローチは、長い範囲の複雑なアクティビティを、順序のないアトミックアクションのセットとして予測するか、自然言語文を使ってビデオを取得するという既存の研究とは異なる。
論文 参考訳(メタデータ) (2020-04-28T00:15:26Z) - Dynamic Feature Integration for Simultaneous Detection of Salient
Object, Edge and Skeleton [108.01007935498104]
本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。
まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
論文 参考訳(メタデータ) (2020-04-18T11:10:11Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。