論文の概要: 1st Place Solution to the EPIC-Kitchens Action Anticipation Challenge
2022
- arxiv url: http://arxiv.org/abs/2207.05730v1
- Date: Sun, 10 Jul 2022 09:03:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 14:29:57.178027
- Title: 1st Place Solution to the EPIC-Kitchens Action Anticipation Challenge
2022
- Title(参考訳): 1st Place Solution to the EPIC-Kitchens Action Precipation Challenge 2022
- Authors: Zeyu Jiang, Changxing Ding
- Abstract要約: 本報告では, EPIC-Kitchens Action Precipation Challenge 2022への提出の技術的詳細について述べる。
本手法は,EPIC-Kitchens Action Precipation Challenge 2022の試験セットにおける最先端の成果を達成する。
- 参考スコア(独自算出の注目度): 15.038891477389537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we describe the technical details of our submission to the
EPIC-Kitchens Action Anticipation Challenge 2022. In this competition, we
develop the following two approaches. 1) Anticipation Time Knowledge
Distillation using the soft labels learned by the teacher model as knowledge to
guide the student network to learn the information of anticipation time; 2)
Verb-Noun Relation Module for building the relationship between verbs and
nouns. Our method achieves state-of-the-art results on the testing set of
EPIC-Kitchens Action Anticipation Challenge 2022.
- Abstract(参考訳): 本報告では,EPIC-Kitchens Action Precipation Challenge 2022への提出の技術的詳細について述べる。
この競争では、以下の2つのアプローチを開発します。
1)教師モデルで学習したソフトラベルを学生ネットワークに案内して予測時間に関する情報を学習するための知識として利用した予知時間知識蒸留
2)動詞と名詞の関係を構築するための動詞-名詞関係モジュール
本手法は,EPIC-Kitchens Action Precipation Challenge 2022の試験セットにおける最先端の成果を達成する。
関連論文リスト
- ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions [66.20773952864802]
我々は8.5k画像と59.3k画像に接地されたアクションに関する59.3kの推論からなるデータセットを開発する。
本稿では、提供された視覚入力に特有の言語モデルに存在する知識を識別するフレームワークであるActionCOMETを提案する。
論文 参考訳(メタデータ) (2024-10-17T15:22:57Z) - NICE: CVPR 2023 Challenge on Zero-shot Image Captioning [149.28330263581012]
NICEプロジェクトは、堅牢な画像キャプションモデルを開発するためにコンピュータビジョンコミュニティに挑戦するために設計されている。
レポートには、新たに提案されたNICEデータセット、評価方法、課題結果、トップレベルのエントリの技術的な詳細などが含まれている。
論文 参考訳(メタデータ) (2023-09-05T05:32:19Z) - Team AcieLee: Technical Report for EPIC-SOUNDS Audio-Based Interaction
Recognition Challenge 2023 [8.699868810184752]
タスクは、オブジェクト間の相互作用やカメラ装着者のイベントによって引き起こされるオーディオを分類することである。
その結果, 学習速度の低下, 背骨凍結, ラベルの平滑化, 焦点損失は, 性能改善に大きく寄与することがわかった。
提案手法により,EPIC-SOUNDS音声ベースインタラクション認識チャレンジのCVPR 2023ワークショップにおいて,第3位を達成できた。
論文 参考訳(メタデータ) (2023-06-15T09:49:07Z) - The Runner-up Solution for YouTube-VIS Long Video Challenge 2022 [72.13080661144761]
この課題に対して,提案したオンラインビデオインスタンス分割方式IDOLを採用した。
擬似ラベルを使用して、コントラスト学習をさらに支援し、時間的に一貫したインスタンスの埋め込みを得る。
提案手法は、YouTube-VIS 2022長ビデオデータセット上で40.2 APを取得し、この課題において第2位にランクされた。
論文 参考訳(メタデータ) (2022-11-18T01:40:59Z) - 1st Place Solution to ECCV 2022 Challenge on Out of Vocabulary Scene
Text Understanding: Cropped Word Recognition [35.2137931915091]
本報告では,ECCV 2022における語彙外シーンテキスト理解(OOV-ST)の課題に対する勝者ソリューションについて述べる。
語彙内単語と語彙外単語の両方を考慮すると、全体的な単語精度は69.73%に達する。
論文 参考訳(メタデータ) (2022-08-04T16:20:58Z) - Team PKU-WICT-MIPL PIC Makeup Temporal Video Grounding Challenge 2022
Technical Report [42.49264486550348]
本研究では,その微粒な句と文全体に関連する時間的局所化関係を利用するフレーズ関係マイニングフレームワークを提案する。
さらに,異なるステップ文クエリの局所化結果を重なり合わないように制約することを提案する。
最終候補は第2位で、第1位と0.55%の差しかなかった。
論文 参考訳(メタデータ) (2022-07-06T13:50:34Z) - Technical Report for CVPR 2022 LOVEU AQTC Challenge [3.614550981030065]
本稿では,CVPR 2022のLong-form VidEo Understanding (LOVEU)課題に新たに導入されたタスクであるAQTCの2つ目の勝利モデルを示す。
この課題は、ビデオにおける多段階の回答、マルチモーダル、多様で変化するボタン表現の難しさに直面する。
より効率的な特徴マッピングのための新しいコンテキスト基底モジュールアテンション機構を提案する。
論文 参考訳(メタデータ) (2022-06-29T12:07:43Z) - NTIRE 2022 Challenge on Perceptual Image Quality Assessment [90.04931572825859]
画像品質評価(IQA)におけるNTIRE 2022の課題について報告する。
この課題は、知覚画像処理アルゴリズムによるIQAの新たな課題に対処するためである。
当選方法は、最先端の性能を示すことができる。
論文 参考訳(メタデータ) (2022-06-23T13:36:49Z) - The End-of-End-to-End: A Video Understanding Pentathlon Challenge (2020) [186.7816349401443]
我々は、IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2020と共同で開かれたオープンコンペティションである、新しいビデオ理解ペンタトロンチャレンジを紹介する。
課題は,テキスト・ビデオ検索の新しい手法を探求し,評価することであった。
論文 参考訳(メタデータ) (2020-08-03T09:55:26Z) - Egocentric Action Recognition by Video Attention and Temporal Context [83.57475598382146]
我々は,Samsung AI Centre Cambridge を CVPR 2020 EPIC-Kitchens Action Recognition Challenge に提出する。
この課題では、入力トリミングされたビデオクリップが与えられた1つの動詞と名詞のクラスラベルを同時に予測する問題として、行動認識が提案される。
我々のソリューションは、オブジェクト固有の推論や余分なトレーニングデータを用いることなく、課題メトリクスの強力なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-03T18:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。