論文の概要: VideoPipe 2022 Challenge: Real-World Video Understanding for Urban Pipe
Inspection
- arxiv url: http://arxiv.org/abs/2210.11158v1
- Date: Thu, 20 Oct 2022 10:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 15:09:49.807244
- Title: VideoPipe 2022 Challenge: Real-World Video Understanding for Urban Pipe
Inspection
- Title(参考訳): VideoPipe 2022 Challenge: 都市管検査のリアルタイムビデオ理解
- Authors: Yi Liu, Xuan Zhang, Ying Li, Guixin Liang, Yabing Jiang, Lixia Qiu,
Haiping Tang, Fei Xie, Wei Yao, Yi Dai, Yu Qiao, Yali Wang
- Abstract要約: QV-Pipe と CCTV-Pipe という2つの高品質なビデオベンチマークを導入し,実世界の都市管システムの異常検査を行った。
本稿では,これらのベンチマークの詳細,競合トラックの問題点定義,評価基準,結果要約について述べる。
- 参考スコア(独自算出の注目度): 40.446994095055985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video understanding is an important problem in computer vision. Currently,
the well-studied task in this research is human action recognition, where the
clips are manually trimmed from the long videos, and a single class of human
action is assumed for each clip. However, we may face more complicated
scenarios in the industrial applications. For example, in the real-world urban
pipe system, anomaly defects are fine-grained, multi-labeled, domain-relevant.
To recognize them correctly, we need to understand the detailed video content.
For this reason, we propose to advance research areas of video understanding,
with a shift from traditional action recognition to industrial anomaly
analysis. In particular, we introduce two high-quality video benchmarks, namely
QV-Pipe and CCTV-Pipe, for anomaly inspection in the real-world urban pipe
systems. Based on these new datasets, we will host two competitions including
(1) Video Defect Classification on QV-Pipe and (2) Temporal Defect Localization
on CCTV-Pipe. In this report, we describe the details of these benchmarks, the
problem definitions of competition tracks, the evaluation metric, and the
result summary. We expect that, this competition would bring new opportunities
and challenges for video understanding in smart city and beyond. The details of
our VideoPipe challenge can be found in https://videopipe.github.io.
- Abstract(参考訳): 映像理解はコンピュータビジョンの重要な問題である。
現在、この研究でよく研究されているタスクは人間の行動認識であり、クリップは長いビデオから手動でトリミングされ、クリップごとに1つの人間の行動が推定される。
しかし、産業応用においてより複雑なシナリオに直面する可能性がある。
例えば、実際の都市パイプシステムでは、異常欠陥は細粒度でマルチラベル、ドメイン関連である。
それらを正しく認識するには、詳細なビデオコンテンツを理解する必要がある。
そこで本稿では,従来の行動認識から産業的異常分析へ移行し,映像理解の研究分野を進展させることを提案する。
特に,QV-Pipe と CCTV-Pipe の2つの高品質なビデオベンチマークを導入し,実際の都市管システムの異常検査を行った。
これらの新たなデータセットに基づいて、(1)QVパイプ上のビデオ欠陥分類と(2)CCTVパイプ上の時間欠陥局所化の2つのコンペを開催する。
本報告では,これらのベンチマークの詳細,競合トラックの問題定義,評価指標,結果要約について述べる。
われわれはこの競争がスマートシティなどにおけるビデオ理解の新しい機会と課題をもたらすことを期待している。
videopipeチャレンジの詳細はhttps://videopipe.github.io.com/で確認できます。
関連論文リスト
- VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - A Survey of Video Datasets for Grounded Event Understanding [34.11140286628736]
マルチモーダルAIシステムは、人間の視覚的理解に似た、よく取り囲まれた常識推論能力を持つ必要があります。
イベント理解機能を必要とする105の動画データセットを調査した。
論文 参考訳(メタデータ) (2024-06-14T00:36:55Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for
Real-time Soccer Commentary Generation [75.60413443783953]
我々は,KGVC(Knowledge-grounded Video Captioning)として新たなタスク設定を提案するための,8.9k以上のサッカービデオクリップ,22kの文,42kの知識トリプルのベンチマークであるGOALを提案する。
私たちのデータとコードはhttps://github.com/THU-KEG/goal.orgで公開されています。
論文 参考訳(メタデータ) (2023-03-26T08:43:36Z) - Technical Report for CVPR 2022 LOVEU AQTC Challenge [3.614550981030065]
本稿では,CVPR 2022のLong-form VidEo Understanding (LOVEU)課題に新たに導入されたタスクであるAQTCの2つ目の勝利モデルを示す。
この課題は、ビデオにおける多段階の回答、マルチモーダル、多様で変化するボタン表現の難しさに直面する。
より効率的な特徴マッピングのための新しいコンテキスト基底モジュールアテンション機構を提案する。
論文 参考訳(メタデータ) (2022-06-29T12:07:43Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z) - NTIRE 2020 Challenge on Video Quality Mapping: Methods and Results [131.05847851975236]
ビデオ品質マッピング(VQM)におけるNTIRE 2020の課題を概観する。
この課題には、2つのベンチマークデータセットに対して、教師付きトラック(トラック1)と弱い教師付きトラック(トラック2)の両方が含まれる。
トラック1では、合計7チームが最終テストフェーズに出場し、問題に対する新しい効果的な解決策を実証した。
トラック2では、いくつかの既存手法が評価され、弱教師付きビデオ品質マッピング問題に対する有望な解決策が示されている。
論文 参考訳(メタデータ) (2020-05-05T15:45:16Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。