論文の概要: Low-Resolution Action Recognition for Tiny Actions Challenge
- arxiv url: http://arxiv.org/abs/2209.14711v1
- Date: Wed, 28 Sep 2022 00:49:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 17:20:46.906621
- Title: Low-Resolution Action Recognition for Tiny Actions Challenge
- Title(参考訳): Tiny Actions Challengeのための低分解能行動認識
- Authors: Boyu Chen, Yu Qiao, Yali Wang
- Abstract要約: Tiny Actions Challengeは、現実世界の監視における人間の活動を理解することに焦点を当てている。
このシナリオでは、アクティビティ認識には2つの大きな困難がある。
本稿では,包括的認識ソリューションを提案する。
- 参考スコア(独自算出の注目度): 52.4358152877632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tiny Actions Challenge focuses on understanding human activities in
real-world surveillance. Basically, there are two main difficulties for
activity recognition in this scenario. First, human activities are often
recorded at a distance, and appear in a small resolution without much
discriminative clue. Second, these activities are naturally distributed in a
long-tailed way. It is hard to alleviate data bias for such heavy category
imbalance. To tackle these problems, we propose a comprehensive recognition
solution in this paper. First, we train video backbones with data balance, in
order to alleviate overfitting in the challenge benchmark. Second, we design a
dual-resolution distillation framework, which can effectively guide
low-resolution action recognition by super-resolution knowledge. Finally, we
apply model en-semble with post-processing, which can further boost
per-formance on the long-tailed categories. Our solution ranks Top-1 on the
leaderboard.
- Abstract(参考訳): tiny actions challengeは、現実世界の監視における人間の活動の理解に焦点を当てている。
基本的に、このシナリオでは、アクティビティ認識には2つの大きな困難がある。
第一に、人間の活動はしばしば遠くで記録され、差別的な手がかりなしに小さな解像度で現れる。
第二に、これらの活動は自然に長い時間をかけて分散されます。
このような重いカテゴリーの不均衡に対するデータのバイアスを軽減するのは難しい。
これらの問題に対処するため,本稿では包括的認識ソリューションを提案する。
まず、ビデオバックボーンをデータバランスでトレーニングし、チャレンジベンチマークのオーバーフィットを緩和します。
第2に,高分解能知識による低分解能動作認識を効果的に導出できる,二重分解能蒸留フレームワークを設計する。
最後に, モデルエンセンブルに後処理を適用することで, ロングテールのカテゴリにおいて, フォーム毎の処理がさらに促進される。
我々の解決策はリーダーボードでトップ1にランクインする。
関連論文リスト
- Distance-aware Attention Reshaping: Enhance Generalization of Neural
Solver for Large-scale Vehicle Routing Problems [5.190244678604757]
本稿では,大規模車両経路問題の解法におけるニューラルソルバの支援を目的とした,距離認識型アテンション再構築手法を提案する。
我々は、現在のノード間でのユークリッド距離情報を用いて、注意点の調整を行う。
実験結果から,提案手法は大規模CVRPLibデータセットにおいて,既存の最先端のニューラルソルバを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-01-13T05:01:14Z) - End-to-End (Instance)-Image Goal Navigation through Correspondence as an
Emergent Phenomenon [27.252343068970852]
そこで我々は,大容量双眼VTモデルを用いた新しいデュアルエンコーダを提案し,対応解が学習信号から自然に現れることを示す。
実験では、ImageNavとインスタンス-ImageNavの2つのベンチマークで、大幅な改善とSOTAパフォーマンスが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:41:17Z) - One-stage Low-resolution Text Recognition with High-resolution Knowledge
Transfer [53.02254290682613]
現在の低解像度テキスト認識のソリューションは、通常2段階のパイプラインに依存している。
本稿では,多段階の知識伝達を実現するための効率的かつ効果的な知識蒸留フレームワークを提案する。
実験の結果、提案されたワンステージパイプラインは、超高解像度ベースの2ステージフレームワークよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-05T02:33:45Z) - Handling Heavy Occlusion in Dense Crowd Tracking by Focusing on the
Heads [29.80438304958294]
本研究では,歩行者のリコールと精度向上を図るために,アンカーレス方式のジョイントヘッドとボディ検出器を設計した。
本モデルでは,訓練用歩行者検出のための統計的頭部比に関する情報は不要である。
このモデルを,MOT20,Crowd Human,HT21データセットなど,さまざまなデータセットに対する広範な実験により評価する。
論文 参考訳(メタデータ) (2023-04-16T06:00:35Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z) - Multi-Scale Aligned Distillation for Low-Resolution Detection [68.96325141432078]
本稿では,高分解能モデルや多分解能モデルから知識を抽出することで,低分解能モデルの性能を向上させることに焦点を当てる。
いくつかのインスタンスレベルの検出タスクとデータセットにおいて,本手法を用いて訓練された低解像度モデルと,従来のマルチスケールトレーニングによる訓練された高解像度モデルとを競合的に処理する。
論文 参考訳(メタデータ) (2021-09-14T12:53:35Z) - Few-shot Partial Multi-view Learning [103.33865779721458]
本稿では,複数ショット部分的多視点学習という新しい課題を提案する。
それは、低データ体制におけるビューミス問題によるネガティブな影響を克服することに焦点を当てている。
提案手法を評価するため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-05-05T13:34:43Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。