論文の概要: Technical Report for CVPR 2022 LOVEU AQTC Challenge
- arxiv url: http://arxiv.org/abs/2206.14555v1
- Date: Wed, 29 Jun 2022 12:07:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 00:01:49.522974
- Title: Technical Report for CVPR 2022 LOVEU AQTC Challenge
- Title(参考訳): CVPR 2022 LOVEU AQTC Challenge 参加報告
- Authors: Hyeonyu Kim, Jongeun Kim, Jeonghun Kang, Sanguk Park, Dongchan Park
and Taehwan Kim
- Abstract要約: 本稿では,CVPR 2022のLong-form VidEo Understanding (LOVEU)課題に新たに導入されたタスクであるAQTCの2つ目の勝利モデルを示す。
この課題は、ビデオにおける多段階の回答、マルチモーダル、多様で変化するボタン表現の難しさに直面する。
より効率的な特徴マッピングのための新しいコンテキスト基底モジュールアテンション機構を提案する。
- 参考スコア(独自算出の注目度): 3.614550981030065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This technical report presents the 2nd winning model for AQTC, a task newly
introduced in CVPR 2022 LOng-form VidEo Understanding (LOVEU) challenges. This
challenge faces difficulties with multi-step answers, multi-modal, and diverse
and changing button representations in video. We address this problem by
proposing a new context ground module attention mechanism for more effective
feature mapping. In addition, we also perform the analysis over the number of
buttons and ablation study of different step networks and video features. As a
result, we achieved the overall 2nd place in LOVEU competition track 3,
specifically the 1st place in two out of four evaluation metrics. Our code is
available at https://github.com/jaykim9870/ CVPR-22_LOVEU_unipyler.
- Abstract(参考訳): 本技術報告では,CVPR 2022 LOVEU(Long-form VidEo Understanding)課題に新たに導入されたタスクであるAQTCの2つ目の勝利モデルを示す。
この課題は、マルチステップ回答、マルチモーダル、ビデオにおける多様で変化するボタン表現の難しさに直面している。
より効率的な特徴マッピングのための新しいコンテキスト基底モジュールアテンション機構を提案することでこの問題に対処する。
また,ボタン数を解析し,異なるステップネットワークとビデオ特徴のアブレーション実験を行った。
その結果、loveu competition track 3の総合2位、特に4つの評価指標のうち2位となった。
私たちのコードはhttps://github.com/jaykim9870/cvpr-22_loveu_unipylerで利用可能です。
関連論文リスト
- 1st Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation [81.50620771207329]
ビデオオブジェクトセグメンテーション(RVOS)における静的支配データとフレームサンプリングの有効性について検討する。
本手法は,競技段階でのJ&Fスコア0.5447を達成し,PVUWチャレンジのMeViSトラックで1位となった。
論文 参考訳(メタデータ) (2024-06-11T08:05:26Z) - The Runner-up Solution for YouTube-VIS Long Video Challenge 2022 [72.13080661144761]
この課題に対して,提案したオンラインビデオインスタンス分割方式IDOLを採用した。
擬似ラベルを使用して、コントラスト学習をさらに支援し、時間的に一貫したインスタンスの埋め込みを得る。
提案手法は、YouTube-VIS 2022長ビデオデータセット上で40.2 APを取得し、この課題において第2位にランクされた。
論文 参考訳(メタデータ) (2022-11-18T01:40:59Z) - VideoPipe 2022 Challenge: Real-World Video Understanding for Urban Pipe
Inspection [40.446994095055985]
QV-Pipe と CCTV-Pipe という2つの高品質なビデオベンチマークを導入し,実世界の都市管システムの異常検査を行った。
本稿では,これらのベンチマークの詳細,競合トラックの問題点定義,評価基準,結果要約について述べる。
論文 参考訳(メタデータ) (2022-10-20T10:52:49Z) - Exploiting Feature Diversity for Make-up Temporal Video Grounding [15.358540603177547]
本報告では,ACM MM 2022における第4回PICチャレンジで導入された第3回MTVGの勝利解について述べる。
MTVGは,テキスト記述に基づくビデオ中のステップの時間的境界のローカライズを目的としている。
論文 参考訳(メタデータ) (2022-08-12T09:03:25Z) - ReLER@ZJU-Alibaba Submission to the Ego4D Natural Language Queries
Challenge 2022 [61.81899056005645]
ビデオクリップとテキストクエリが与えられた場合、この課題のゴールは、クエリに対する回答が得られるビデオクリップの時間的モーメントを見つけることである。
本稿では,言語クエリとビデオクリップの相関関係を明らかにするために,マルチスケールのクロスモーダル変換器とビデオフレームレベルのコントラスト損失を提案する。
実験の結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-07-01T12:48:35Z) - NTIRE 2022 Challenge on Perceptual Image Quality Assessment [90.04931572825859]
画像品質評価(IQA)におけるNTIRE 2022の課題について報告する。
この課題は、知覚画像処理アルゴリズムによるIQAの新たな課題に対処するためである。
当選方法は、最先端の性能を示すことができる。
論文 参考訳(メタデータ) (2022-06-23T13:36:49Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - NTIRE 2020 Challenge on Video Quality Mapping: Methods and Results [131.05847851975236]
ビデオ品質マッピング(VQM)におけるNTIRE 2020の課題を概観する。
この課題には、2つのベンチマークデータセットに対して、教師付きトラック(トラック1)と弱い教師付きトラック(トラック2)の両方が含まれる。
トラック1では、合計7チームが最終テストフェーズに出場し、問題に対する新しい効果的な解決策を実証した。
トラック2では、いくつかの既存手法が評価され、弱教師付きビデオ品質マッピング問題に対する有望な解決策が示されている。
論文 参考訳(メタデータ) (2020-05-05T15:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。