Fugu-MT 論文翻訳(概要): Discriminative Dictionary Design for Action Classification in Still Images and Videos

論文の概要: Discriminative Dictionary Design for Action Classification in Still Images and Videos

arxiv url: http://arxiv.org/abs/2005.10149v2
Date: Sat, 6 Jun 2020 17:36:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-01 05:39:19.062493
Title: Discriminative Dictionary Design for Action Classification in Still Images and Videos
Title（参考訳）: 静止画像とビデオにおける行動分類のための識別辞書設計
Authors: Abhinaba Roy, Biplab Banerjee, Amir Hussain, Soujanya Poria
Abstract要約: 本稿では,ロバストな局所特徴とカテゴリ固有の局所特徴を識別する新たな識別手法を提案する。フレームワークは静止画像とビデオに基づいて、アクション認識データセット上で検証される。
参考スコア（独自算出の注目度）: 29.930239762446217
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we address the problem of action recognition from still images and videos. Traditional local features such as SIFT, STIP etc. invariably pose two potential problems: 1) they are not evenly distributed in different entities of a given category and 2) many of such features are not exclusive of the visual concept the entities represent. In order to generate a dictionary taking the aforementioned issues into account, we propose a novel discriminative method for identifying robust and category specific local features which maximize the class separability to a greater extent. Specifically, we pose the selection of potent local descriptors as filtering based feature selection problem which ranks the local features per category based on a novel measure of distinctiveness. The underlying visual entities are subsequently represented based on the learned dictionary and this stage is followed by action classification using the random forest model followed by label propagation refinement. The framework is validated on the action recognition datasets based on still images (Stanford-40) as well as videos (UCF-50) and exhibits superior performances than the representative methods from the literature.
Abstract（参考訳）: 本稿では,静止画と映像からの行動認識の問題点について述べる。 SIFT、STIPなどの従来のローカル機能は、必ず2つの潜在的な問題を生じさせる。 1) 与えられたカテゴリの異なるエンティティに均等に分散されない。 2) これらの機能の多くは、エンティティが表現する視覚概念に排他的ではない。上記の課題を考慮に入れた辞書を生成するために,クラス分離性を最大化するための,ロバストかつカテゴリ固有の局所特徴を識別する新たな識別手法を提案する。具体的には,特徴量の新しい尺度に基づいてカテゴリごとの局所的特徴をランク付けするフィルタリングに基づく特徴選択問題として,強力な局所記述子の選定を行う。基礎となる視覚エンティティはその後、学習された辞書に基づいて表現され、この段階ではランダムフォレストモデルを用いたアクション分類とラベル伝播の精細化が行われる。このフレームワークは静止画像(スタンフォード40)とビデオ(UCF-50)に基づいて動作認識データセット上で検証され、文献の代表的な手法よりも優れた性能を示す。

関連論文リスト

Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model [52.01031460230826]
伝統的なアプローチは固定語彙と閉集合分類パラダイムに大きく依存している。近年の研究では、大規模言語モデルと視覚言語モデル(VLM)を組み合わせることで、オープンセット認識が可能であることが実証されている。そこで本研究では,精密な視覚認識のための最先端の手法であるEnriched-FineRを提案する。
論文参考訳（メタデータ） (2025-07-30T20:06:01Z)
Dynamic Dictionary Learning for Remote Sensing Image Segmentation [22.457901431083645]
この研究は動的辞書学習フレームワークを導入し、反復的な洗練を通じてクラスIDの埋め込みを明示的にモデル化する。その中核となる貢献は、クラス認識のセマンティック埋め込みが徐々に更新される新しい辞書構築メカニズムにある。粗いデータセットときめ細かいデータセットの両方にわたる実験は、最先端の手法よりも一貫した改善を示している。
論文参考訳（メタデータ） (2025-03-09T16:25:16Z)
Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。 VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文参考訳（メタデータ） (2024-04-16T19:27:21Z)
Evolving Interpretable Visual Classifiers with Large Language Models [34.4903887876357]
CLIPのようなマルチモーダル事前訓練モデルは、オープン語彙の柔軟性と高性能のため、ゼロショット分類に人気がある。画像とクラスラベルの類似点を計算する視覚言語モデルは、ほとんどブラックボックスであり、解釈可能性の制限、バイアスのリスク、書き下がらない新しい視覚概念の発見ができない。本稿では,視覚認識のための属性の解釈可能かつ差別的集合を検出する新しい手法を提案する。
論文参考訳（メタデータ） (2024-04-15T17:09:53Z)
A Generative Approach for Wikipedia-Scale Visual Entity Recognition [56.55633052479446]
与えられたクエリ画像をWikipediaにある600万の既存エンティティの1つにマッピングするタスクに対処する。本稿では,対象エンティティを識別する「意味的・識別的コード」の自動復号化を学習する,新しい生成エンティティ認識フレームワークを紹介する。
論文参考訳（メタデータ） (2024-03-04T13:47:30Z)
Natural Scene Image Annotation Using Local Semantic Concepts and Spatial Bag of Visual Words [0.0]
本稿では,事前に定義された語彙から局所的な意味ラベルを付加した自然なシーン画像の自動アノテーションフレームワークを提案する。このフレームワークは、自然な場面では、中間的な意味概念が局所的なキーポイントと相関していると仮定する仮説に基づいている。この仮説に基づいて、画像領域をBOWモデルで効率よく表現し、SVMのような機械学習アプローチを使用して、セマンティックアノテーションで画像領域をラベル付けすることができる。
論文参考訳（メタデータ） (2022-10-17T12:57:51Z)
Visual Classification via Description from Large Language Models [23.932495654407425]
視覚言語モデル(VLM)は、様々な認識タスクにおいて有望な性能を示す。本稿では,VLMを用いた分類のための代替フレームワークを提案する。
論文参考訳（メタデータ） (2022-10-13T17:03:46Z)
Few-shot Open-set Recognition Using Background as Unknowns [58.04165813493666]
未使用のオープンセット認識は、見知らぬクラスの限られた訓練データしか持たない、目に見える画像と新しい画像の両方を分類することを目的としている。提案手法は,複数のベースラインより優れるだけでなく,3つのベンチマークで新たな結果が得られた。
論文参考訳（メタデータ） (2022-07-19T04:19:29Z)
Semantic Representation and Dependency Learning for Multi-Label Image Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文参考訳（メタデータ） (2022-04-08T00:55:15Z)
On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文参考訳（メタデータ） (2022-02-17T22:40:19Z)
Prototypical Region Proposal Networks for Few-Shot Localization and Classification [1.5100087942838936]
分割と分類をエンドツーエンドの分類モデルであるPRoPnetに統一するフレームワークを開発する。本手法は,複数のオブジェクトクラスを含む自然シーンを用いた画像データセットの精度向上を実証した。
論文参考訳（メタデータ） (2021-04-08T04:03:30Z)
Hierarchical Image Classification using Entailment Cone Embeddings [68.82490011036263]
まずラベル階層の知識を任意のCNNベースの分類器に注入する。画像からの視覚的セマンティクスと組み合わせた外部セマンティクス情報の利用が全体的な性能を高めることを実証的に示す。
論文参考訳（メタデータ） (2020-04-02T10:22:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。