論文の概要: Discriminative Dictionary Design for Action Classification in Still
Images and Videos
- arxiv url: http://arxiv.org/abs/2005.10149v2
- Date: Sat, 6 Jun 2020 17:36:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 05:39:19.062493
- Title: Discriminative Dictionary Design for Action Classification in Still
Images and Videos
- Title(参考訳): 静止画像とビデオにおける行動分類のための識別辞書設計
- Authors: Abhinaba Roy, Biplab Banerjee, Amir Hussain, Soujanya Poria
- Abstract要約: 本稿では,ロバストな局所特徴とカテゴリ固有の局所特徴を識別する新たな識別手法を提案する。
フレームワークは静止画像とビデオに基づいて、アクション認識データセット上で検証される。
- 参考スコア(独自算出の注目度): 29.930239762446217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the problem of action recognition from still images
and videos. Traditional local features such as SIFT, STIP etc. invariably pose
two potential problems: 1) they are not evenly distributed in different
entities of a given category and 2) many of such features are not exclusive of
the visual concept the entities represent. In order to generate a dictionary
taking the aforementioned issues into account, we propose a novel
discriminative method for identifying robust and category specific local
features which maximize the class separability to a greater extent.
Specifically, we pose the selection of potent local descriptors as filtering
based feature selection problem which ranks the local features per category
based on a novel measure of distinctiveness. The underlying visual entities are
subsequently represented based on the learned dictionary and this stage is
followed by action classification using the random forest model followed by
label propagation refinement. The framework is validated on the action
recognition datasets based on still images (Stanford-40) as well as videos
(UCF-50) and exhibits superior performances than the representative methods
from the literature.
- Abstract(参考訳): 本稿では,静止画と映像からの行動認識の問題点について述べる。
SIFT、STIPなどの従来のローカル機能は、必ず2つの潜在的な問題を生じさせる。
1) 与えられたカテゴリの異なるエンティティに均等に分散されない。
2) これらの機能の多くは、エンティティが表現する視覚概念に排他的ではない。
上記の課題を考慮に入れた辞書を生成するために,クラス分離性を最大化するための,ロバストかつカテゴリ固有の局所特徴を識別する新たな識別手法を提案する。
具体的には,特徴量の新しい尺度に基づいてカテゴリごとの局所的特徴をランク付けするフィルタリングに基づく特徴選択問題として,強力な局所記述子の選定を行う。
基礎となる視覚エンティティはその後、学習された辞書に基づいて表現され、この段階ではランダムフォレストモデルを用いたアクション分類とラベル伝播の精細化が行われる。
このフレームワークは静止画像(スタンフォード40)とビデオ(UCF-50)に基づいて動作認識データセット上で検証され、文献の代表的な手法よりも優れた性能を示す。
関連論文リスト
- A Generative Approach for Wikipedia-Scale Visual Entity Recognition [61.783728119255365]
与えられたクエリ画像をWikipediaにある600万の既存エンティティの1つにマッピングするタスクに対処する。
本稿では,対象エンティティを識別する「意味的・識別的コード」の自動復号化を学習する,新しい生成エンティティ認識フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-03-04T13:47:30Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Natural Scene Image Annotation Using Local Semantic Concepts and Spatial
Bag of Visual Words [0.0]
本稿では,事前に定義された語彙から局所的な意味ラベルを付加した自然なシーン画像の自動アノテーションフレームワークを提案する。
このフレームワークは、自然な場面では、中間的な意味概念が局所的なキーポイントと相関していると仮定する仮説に基づいている。
この仮説に基づいて、画像領域をBOWモデルで効率よく表現し、SVMのような機械学習アプローチを使用して、セマンティックアノテーションで画像領域をラベル付けすることができる。
論文 参考訳(メタデータ) (2022-10-17T12:57:51Z) - Visual Classification via Description from Large Language Models [23.932495654407425]
視覚言語モデル(VLM)は、様々な認識タスクにおいて有望な性能を示す。
本稿では,VLMを用いた分類のための代替フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:03:46Z) - Few-shot Open-set Recognition Using Background as Unknowns [58.04165813493666]
未使用のオープンセット認識は、見知らぬクラスの限られた訓練データしか持たない、目に見える画像と新しい画像の両方を分類することを目的としている。
提案手法は,複数のベースラインより優れるだけでなく,3つのベンチマークで新たな結果が得られた。
論文 参考訳(メタデータ) (2022-07-19T04:19:29Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Contrastive learning of Class-agnostic Activation Map for Weakly
Supervised Object Localization and Semantic Segmentation [32.76127086403596]
ラベルなし画像データを用いたクラス非依存型活性化マップ(C$2$AM)生成のためのコントラスト学習を提案する。
我々は上記の関係に基づいて正対と負の対を形成し、ネットワークを前景と背景を乱すように強制する。
ネットワークは画像前景を識別するために誘導されるため,本手法で学習したクラス非依存のアクティベーションマップは,より完全なオブジェクト領域を生成する。
論文 参考訳(メタデータ) (2022-03-25T08:46:24Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z) - Prototypical Region Proposal Networks for Few-Shot Localization and
Classification [1.5100087942838936]
分割と分類をエンドツーエンドの分類モデルであるPRoPnetに統一するフレームワークを開発する。
本手法は,複数のオブジェクトクラスを含む自然シーンを用いた画像データセットの精度向上を実証した。
論文 参考訳(メタデータ) (2021-04-08T04:03:30Z) - Hierarchical Image Classification using Entailment Cone Embeddings [68.82490011036263]
まずラベル階層の知識を任意のCNNベースの分類器に注入する。
画像からの視覚的セマンティクスと組み合わせた外部セマンティクス情報の利用が全体的な性能を高めることを実証的に示す。
論文 参考訳(メタデータ) (2020-04-02T10:22:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。