論文の概要: Dark Transformer: A Video Transformer for Action Recognition in the Dark
- arxiv url: http://arxiv.org/abs/2407.12805v1
- Date: Tue, 25 Jun 2024 01:25:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 08:47:38.366045
- Title: Dark Transformer: A Video Transformer for Action Recognition in the Dark
- Title(参考訳): Dark Transformer: 暗黒でのアクション認識のためのビデオトランス
- Authors: Anwaar Ulhaq,
- Abstract要約: 本稿では,低照度環境における行動認識のためのビデオトランスフォーマーを用いた新しいアプローチを提案する。
Dark Transformerleveragesは、クロスドメインのアクション認識を強化するために、クロスドメイン設定におけるビデオの自己アテンションメカニズムを提供する。
ベンチマークアクション認識データセット上での最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 1.4957306171002251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognizing human actions in adverse lighting conditions presents significant challenges in computer vision, with wide-ranging applications in visual surveillance and nighttime driving. Existing methods tackle action recognition and dark enhancement separately, limiting the potential for end-to-end learning of spatiotemporal representations for video action classification. This paper introduces Dark Transformer, a novel video transformer-based approach for action recognition in low-light environments. Dark Transformer leverages spatiotemporal self-attention mechanisms in cross-domain settings to enhance cross-domain action recognition. By extending video transformers to learn cross-domain knowledge, Dark Transformer achieves state-of-the-art performance on benchmark action recognition datasets, including InFAR, XD145, and ARID. The proposed approach demonstrates significant promise in addressing the challenges of action recognition in adverse lighting conditions, offering practical implications for real-world applications.
- Abstract(参考訳): 悪照明条件下での人間の行動を認識することは、コンピュータビジョンにおいて重要な課題であり、視覚監視や夜間運転に広く応用されている。
既存の手法は、アクション認識とダークエンハンスメントに別々に取り組み、ビデオアクション分類のための時空間表現のエンドツーエンド学習の可能性を制限する。
本稿では,低照度環境下での行動認識のためのビデオトランスを用いた新しいアプローチであるDark Transformerを紹介する。
Dark Transformerは、クロスドメイン設定における時空間自己アテンション機構を活用して、クロスドメインアクション認識を強化する。
ビデオトランスフォーマーを拡張してクロスドメイン知識を学習することで、Dark Transformerは、InFAR、XD145、ARIDを含む、ベンチマークアクション認識データセット上で最先端のパフォーマンスを達成する。
提案手法は, 悪条件下での行動認識の課題に対処し, 現実の応用に現実的な意味を持つことを示す。
関連論文リスト
- TransferAttn: Transferable-guided Attention Is All You Need for Video Domain Adaptation [42.642008092347986]
ビデオにおける教師なしドメイン適応(UDA)は、画像ベースのUDA技術と比較しても十分に検討されていない課題である。
視覚変換器(ViT)は多くのコンピュータビジョンタスクで最先端のパフォーマンスを達成する。
我々のキーとなる考え方は、トランスフォーマー層を特徴として利用し、空間的および時間的伝達可能性の関係をアテンション機構に組み込むことである。
Transferable-Guided Attention (TransferAttn)フレームワークが開発され、トランスフォーマーの能力を利用してドメイン間の知識を適応する。
論文 参考訳(メタデータ) (2024-07-01T15:29:27Z) - Efficient Vision Transformer for Accurate Traffic Sign Detection [0.0]
本研究では,自動運転車や運転支援システムにおける交通標識検出の課題について論じる。
この課題に対処するため、Transformerモデル、特にVision Transformerの派生版が導入された。
本研究はトランスフォーマーモデルの効率を高めるために,局所性帰納バイアスとトランスフォーマーモジュールを統合する新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-11-02T17:44:32Z) - IndGIC: Supervised Action Recognition under Low Illumination [0.0]
深層多入力ネットワークを用いた行動認識手法を提案する。
Ind-GICは低照度映像の高精細化のために提案され、1フレームに1ガンマを発生させ、高精細化性能を向上する。
実験結果から,本モデルはARIDデータセットの精度が高いことがわかった。
論文 参考訳(メタデータ) (2023-08-29T14:41:10Z) - Adversarial Domain Adaptation for Action Recognition Around the Clock [0.7614628596146599]
本稿では,ドメイン適応に基づく行動認識手法を提案する。
クロスドメイン設定での敵対的学習を使用して、クロスドメインアクション認識を学習する。
InFARおよびXD145アクションデータセット上でのSOTAパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-25T01:08:27Z) - Vision Transformers for Action Recognition: A Survey [41.69370782177517]
コンピュータビジョン問題を解決する強力なツールとして、ビジョントランスフォーマーが登場している。
最近の技術は、多数のビデオ関連タスクを解決するために、画像領域を超えたトランスフォーマーの有効性を証明している。
人間の行動認識は、広く応用されているため、研究コミュニティから特別に注目を集めている。
論文 参考訳(メタデータ) (2022-09-13T02:57:05Z) - Efficient Attention-free Video Shift Transformers [56.87581500474093]
本稿では,効率的な映像認識の問題に取り組む。
ビデオトランスは、最近、効率(トップ1精度対FLOP)のスペクトルを支配している。
我々はビデオ領域における定式化を拡張してビデオアフィンシフト変換器を構築する。
論文 参考訳(メタデータ) (2022-08-23T17:48:29Z) - Unsupervised Domain Adaptation for Video Transformers in Action
Recognition [76.31442702219461]
ビデオ行動認識のためのシンプルで斬新なUDA手法を提案する。
私たちのアプローチでは、ターゲットドメインをより一般化した堅牢なソースモデルを構築しています。
UDAのための2つのビデオアクションベンチマークの認識結果について報告する。
論文 参考訳(メタデータ) (2022-07-26T12:17:39Z) - Blending Anti-Aliasing into Vision Transformer [57.88274087198552]
不連続なパッチ単位のトークン化プロセスは、ジャッジされたアーティファクトをアテンションマップに暗黙的に導入する。
エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。
本稿では,前述の問題を緩和するためのAliasing-Reduction Module(ARM)を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:30:02Z) - Augmented Shortcuts for Vision Transformers [49.70151144700589]
視覚変換器モデルにおけるショートカットと特徴の多様性の関係について検討する。
本稿では,元のショートカットに並列に学習可能なパラメータを追加経路を挿入する拡張ショートカット方式を提案する。
ベンチマークデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-30T09:48:30Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。