Fugu-MT 論文翻訳(概要): Human Action Recognition in Still Images Using ConViT

論文の概要: Human Action Recognition in Still Images Using ConViT

arxiv url: http://arxiv.org/abs/2307.08994v2
Date: Mon, 8 Jan 2024 08:53:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 23:22:35.314782
Title: Human Action Recognition in Still Images Using ConViT
Title（参考訳）: ConViTを用いた静止画像における人間の行動認識
Authors: Seyed Rohollah Hosseyni, Sanaz Seyedin, Hasan Taheri
Abstract要約: 本稿では、視覚変換器(ViT)を用いた畳み込み層のように機能する新しいモジュールを提案する。提案手法は,単純なCNNと比較して,画像の意味的な部分を抽出し,誤解を招く部分を抑えることができる。
参考スコア（独自算出の注目度）: 0.11510009152620665
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Understanding the relationship between different parts of an image is crucial in a variety of applications, including object recognition, scene understanding, and image classification. Despite the fact that Convolutional Neural Networks (CNNs) have demonstrated impressive results in classifying and detecting objects, they lack the capability to extract the relationship between different parts of an image, which is a crucial factor in Human Action Recognition (HAR). To address this problem, this paper proposes a new module that functions like a convolutional layer that uses Vision Transformer (ViT). In the proposed model, the Vision Transformer can complement a convolutional neural network in a variety of tasks by helping it to effectively extract the relationship among various parts of an image. It is shown that the proposed model, compared to a simple CNN, can extract meaningful parts of an image and suppress the misleading parts. The proposed model has been evaluated on the Stanford40 and PASCAL VOC 2012 action datasets and has achieved 95.5% mean Average Precision (mAP) and 91.5% mAP results, respectively, which are promising compared to other state-of-the-art methods.
Abstract（参考訳）: 画像の異なる部分間の関係を理解することは、オブジェクト認識、シーン理解、画像分類など、さまざまなアプリケーションにおいて重要である。畳み込みニューラルネットワーク(CNN)は、物体の分類と検出において顕著な結果を示したが、人間の行動認識(HAR)において重要な要素である画像の異なる部分間の関係を抽出する能力は欠如している。この問題に対処するために,視覚変換器(ViT)を用いた畳み込み層のように機能する新しいモジュールを提案する。提案したモデルでは、視覚変換器は、画像の様々な部分間の関係を効果的に抽出することにより、様々なタスクにおいて畳み込みニューラルネットワークを補完することができる。提案手法は,単純なCNNと比較して,画像の意味的な部分を抽出し,誤解を招く部分を抑えることができる。提案したモデルは、Stanford40とPASCAL VOC 2012のアクションデータセットで評価され、平均精度(mAP)が95.5%、平均精度(mAP)が91.5%に達した。

関連論文リスト

Pose Matters: Evaluating Vision Transformers and CNNs for Human Action Recognition on Small COCO Subsets [0.0]
本研究では,COCO画像コーパスの3クラスサブセットを用いた人間の認識について検討する。バイナリビジョン変換器(ViT)は90%の平均テスト精度を達成した。
論文参考訳（メタデータ） (2025-06-13T11:16:50Z)
Are Deep Learning Models Robust to Partial Object Occlusion in Visual Recognition Tasks? [4.9260675787714]
畳み込みニューラルネットワーク(CNN)を含む画像分類モデルは、様々な分類タスクでうまく機能するが、部分閉塞下では困難である。我々は最近開発されたOccluded Video Instance(IRUO)データセット(arXiv:2102.01558)を基にした画像認識(IRUO)データセットをコントリビュートする。現代のCNNベースモデルでは、従来のCNNベースモデルと比較して、隠蔽画像の認識精度が向上しており、ViTベースモデルは隠蔽画像のCNNベースモデルよりも精度が高いことが判明した。
論文参考訳（メタデータ） (2024-09-16T23:21:22Z)
Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。 FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文参考訳（メタデータ） (2024-03-26T06:04:50Z)
Foveation in the Era of Deep Learning [6.602118206533142]
本稿では,グラフ畳み込みネットワークを利用してフェーブ化された画像を処理する,エンドツーエンドで微分可能なアクティブ・ビジョン・アーキテクチャを提案する。我々のモデルは、分類に関連する画像の領域に反復的に出席することを学ぶ。我々のモデルは最先端のCNNと、同等のパラメータと与えられたピクセルや予算の視覚アーキテクチャより優れています。
論文参考訳（メタデータ） (2023-12-03T16:48:09Z)
Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文参考訳（メタデータ） (2023-08-04T10:28:48Z)
Two Approaches to Supervised Image Segmentation [55.616364225463066]
本研究は、深層学習とマルチセットニューロンのアプローチの比較実験を開発する。ディープラーニングアプローチは、画像セグメンテーションの実行の可能性を確認した。代替のマルチセット手法では、計算資源をほとんど必要とせずに精度を向上することができた。
論文参考訳（メタデータ） (2023-07-19T16:42:52Z)
Convolutional neural network based on sparse graph attention mechanism for MRI super-resolution [0.34410212782758043]
深層学習技術を用いた医用画像超解像(SR)再構成は、病変解析を強化し、診断効率と精度を向上させるために医師を支援する。既存のディープラーニングベースのSR手法は、これらのモデルの表現能力を本質的に制限する畳み込みニューラルネットワーク(CNN)に依存している。画像特徴抽出に複数の畳み込み演算子特徴抽出モジュール(MCO)を用いるAネットワークを提案する。
論文参考訳（メタデータ） (2023-05-29T06:14:22Z)
AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。 AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文参考訳（メタデータ） (2023-03-01T23:37:45Z)
Saccade Mechanisms for Image Classification, Object Detection and Tracking [12.751552698602744]
生体視覚からのササード機構を用いて、ディープニューラルネットワークを分類や物体検出の問題をより効率的にする方法について検討する。提案手法は、注意駆動型視覚処理とササードのアイデアに基づいており、注意に影響された眼球運動のミニチュア化を図っている。
論文参考訳（メタデータ） (2022-06-10T13:50:34Z)
Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。 VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文参考訳（メタデータ） (2022-03-20T02:59:51Z)
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文参考訳（メタデータ） (2022-02-21T10:40:05Z)
Projected Distribution Loss for Image Enhancement [15.297569497776374]
CNNアクティベーション間の1D-ワッサースタイン距離の集約は,既存の手法よりも信頼性が高いことを示す。デノイジング、スーパーレゾリューション、復号化、デブレーション、JPEGアーティファクト除去などのイメージングアプリケーションでは、提案された学習損失は、参照ベースの知覚的損失に関する現在の最先端のものを上回る。
論文参考訳（メタデータ） (2020-12-16T22:13:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。