論文の概要: Improving the Multi-label Atomic Activity Recognition by Robust Visual Feature and Advanced Attention @ ROAD++ Atomic Activity Recognition 2024
- arxiv url: http://arxiv.org/abs/2410.16037v1
- Date: Mon, 21 Oct 2024 14:10:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:21.551940
- Title: Improving the Multi-label Atomic Activity Recognition by Robust Visual Feature and Advanced Attention @ ROAD++ Atomic Activity Recognition 2024
- Title(参考訳): ロバストな視覚特徴と高度な注意によるマルチラベル原子活動認識の改善@ROAD++原子活動認識2024
- Authors: Jiamin Cao, Lingqi Wang, Kexin Zhang, Yuting Yang, Licheng Jiao, Yuwei Guo,
- Abstract要約: Road++ Track3は、トラフィックシナリオにおけるマルチラベルのアトミックアクティビティ認識タスクを提案する。
視覚的特徴抽出の堅牢性は依然として重要な課題である。
テストセットの最終mAPは58%で、チャレンジベースラインよりも4%高い。
- 参考スコア(独自算出の注目度): 34.921509504848025
- License:
- Abstract: Road++ Track3 proposes a multi-label atomic activity recognition task in traffic scenarios, which can be standardized as a 64-class multi-label video action recognition task. In the multi-label atomic activity recognition task, the robustness of visual feature extraction remains a key challenge, which directly affects the model performance and generalization ability. To cope with these issues, our team optimized three aspects: data processing, model and post-processing. Firstly, the appropriate resolution and video sampling strategy are selected, and a fixed sampling strategy is set on the validation and test sets. Secondly, in terms of model training, the team selects a variety of visual backbone networks for feature extraction, and then introduces the action-slot model, which is trained on the training and validation sets, and reasoned on the test set. Finally, for post-processing, the team combined the strengths and weaknesses of different models for weighted fusion, and the final mAP on the test set was 58%, which is 4% higher than the challenge baseline.
- Abstract(参考訳): Road++ Track3は、64クラスのマルチラベルビデオアクション認識タスクとして標準化可能な、トラフィックシナリオにおけるマルチラベルのアトミックアクティビティ認識タスクを提案する。
マルチラベルの原子活動認識タスクでは、視覚的特徴抽出の堅牢性は依然として重要な課題であり、モデルの性能と一般化能力に直接影響を及ぼす。
これらの問題に対処するため、チームはデータ処理、モデル、後処理の3つの側面を最適化しました。
まず、適切な解像度とビデオサンプリング戦略を選択し、検証とテストセットに固定サンプリング戦略を設定する。
次に、モデルトレーニングの観点で、チームは特徴抽出のためにさまざまな視覚的バックボーンネットワークを選択し、トレーニングセットと検証セットに基づいてトレーニングされたアクションスロットモデルを導入し、テストセットに基づいて推論する。
最後に、後処理のために、チームは重み付けされた融合のための異なるモデルの長所と短所を結合し、テストセットの最終mAPは58%で、チャレンジベースラインよりも4%高い。
関連論文リスト
- First Place Solution to the ECCV 2024 ROAD++ Challenge @ ROAD++ Atomic Activity Recognition 2024 [5.674251666234644]
本報告では,2024年のECCV ROAD++ Challengeのトラック3に参加するための,私たちのチームの技術的ソリューションについて紹介する。
トラック3のタスクは、映像コンテンツに基づいて、路面の64種類の原子活動を特定することを目的とした原子活動認識である。
我々のアプローチは、主に小さなオブジェクトの課題に対処し、単一のオブジェクトとオブジェクトのグループを区別し、モデルオーバーフィットする。
論文 参考訳(メタデータ) (2024-10-30T15:06:58Z) - Foundation Model is Efficient Multimodal Multitask Model Selector [47.017463595702274]
ブルートフォースアプローチは、すべてのターゲットデータセット上のすべてのモデルを微調整し、高い計算コストをもたらす。
マルチタスクモデルセレクタ(EMMS)を提案し,多様なラベル形式を統一的な雑音ラベル埋め込みに変換する。
EMMSは、事前訓練されたモデルの転送可能性を評価するのに十分な高速で効果的で汎用的であり、マルチタスクシナリオにおける最初のモデル選択方法である。
論文 参考訳(メタデータ) (2023-08-11T17:54:44Z) - Multi-Task Consistency for Active Learning [18.794331424921946]
不整合に基づくアクティブラーニングは、アノテーションに対する情報的サンプルの選択に有効であることが証明されている。
本稿では,オブジェクト検出とセマンティックセグメンテーションという2つの複合視覚タスクのための,新しいマルチタスク能動学習戦略を提案する。
提案手法は、利用可能なデータのわずか67%を使用して、完全にトレーニングされたパフォーマンスの95%を達成している。
論文 参考訳(メタデータ) (2023-06-21T17:34:31Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Reliable Shot Identification for Complex Event Detection via
Visual-Semantic Embedding [72.9370352430965]
本稿では,映像中の事象検出のための視覚的意味的誘導損失法を提案する。
カリキュラム学習に動機付け,高い信頼性の事例で分類器の訓練を開始するために,負の弾性正規化項を導入する。
提案する非ネット正規化問題の解法として,代替最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-12T11:46:56Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Towards High Performance Human Keypoint Detection [87.1034745775229]
文脈情報は人体構成や見えないキーポイントを推論する上で重要な役割を担っている。
そこで我々は,空間とチャネルのコンテキスト情報を効率的に統合するカスケードコンテキストミキサー(CCM)を提案する。
CCMの表現能力を最大化するために、我々は、強陰性な人検出マイニング戦略と共同訓練戦略を開発する。
検出精度を向上させるために,キーポイント予測を後処理するためのいくつかのサブピクセル改良手法を提案する。
論文 参考訳(メタデータ) (2020-02-03T02:24:51Z) - Active and Incremental Learning with Weak Supervision [7.2288756536476635]
本研究では,逐次学習方式と能動学習方式の組み合わせについて述べる。
オブジェクト検出タスクは、PASCAL VOCデータセット上で連続的な探索コンテキストで評価される。
また,実世界の生物多様性アプリケーションにおいて,能動的・漸進的学習に基づく弱教師付きシステムを検証する。
論文 参考訳(メタデータ) (2020-01-20T13:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。