Fugu-MT 論文翻訳(概要): An overview on the evaluated video retrieval tasks at TRECVID 2022

論文の概要: An overview on the evaluated video retrieval tasks at TRECVID 2022

arxiv url: http://arxiv.org/abs/2306.13118v1
Date: Thu, 22 Jun 2023 15:15:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-26 14:46:35.646072
Title: An overview on the evaluated video retrieval tasks at TRECVID 2022
Title（参考訳）: TRECVID 2022における評価映像検索タスクの概要
Authors: George Awad, Keith Curtis, Asad Butt, Jonathan Fiscus, Afzal Godil, Yooyoung Lee, Andrew Delgado, Eliot Godard, Lukas Diduch, Jeffrey Liu, Yvette Graham, Georges Quenot
Abstract要約: TRECビデオ検索評価(TREC Video Retrieval Evaluation, TRECVID)は、TREC方式のビデオ解析および検索評価である。本稿では,タスク,データセット,評価フレームワーク,メトリクス,高レベルな結果の概要を紹介する。
参考スコア（独自算出の注目度）: 3.2136632136953263
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: The TREC Video Retrieval Evaluation (TRECVID) is a TREC-style video analysis and retrieval evaluation with the goal of promoting progress in research and development of content-based exploitation and retrieval of information from digital video via open, tasks-based evaluation supported by metrology. Over the last twenty-one years this effort has yielded a better understanding of how systems can effectively accomplish such processing and how one can reliably benchmark their performance. TRECVID has been funded by NIST (National Institute of Standards and Technology) and other US government agencies. In addition, many organizations and individuals worldwide contribute significant time and effort. TRECVID 2022 planned for the following six tasks: Ad-hoc video search, Video to text captioning, Disaster scene description and indexing, Activity in extended videos, deep video understanding, and movie summarization. In total, 35 teams from various research organizations worldwide signed up to join the evaluation campaign this year. This paper introduces the tasks, datasets used, evaluation frameworks and metrics, as well as a high-level results overview.
Abstract（参考訳）: trec video search evaluation (trecvid) はtrecスタイルのビデオ解析および検索評価であり、metrologyが支援するタスクベースのオープン評価によるデジタルビデオからのコンテンツベースの搾取および検索の研究開発の進展を促進することを目的としている。過去21年間でこの取り組みは、システムがそのような処理を効果的に達成し、パフォーマンスを確実にベンチマークする方法をよりよく理解した。 TRECVIDはNIST(National Institute of Standards and Technology)や他の米国政府機関から資金提供を受けている。加えて、世界中の多くの組織や個人が多大な時間と労力を費やしている。 TRECVID 2022は、アドホックなビデオ検索、テキストキャプションへのビデオ、災害現場の説明と索引付け、拡張ビデオでのアクティビティ、深いビデオ理解、映画要約の6つのタスクを計画した。全世界のさまざまな研究機関の35チームが参加し、今年の評価キャンペーンに参加した。本稿では,タスク,データセット,評価フレームワーク,メトリクス,高レベルな結果の概要を紹介する。

関連論文リスト

MomentSeeker: A Comprehensive Benchmark and A Strong Baseline For Moment Retrieval Within Long Videos [62.01402470874109]
我々は、一般的な長時間ビデオモーメント検索タスクの処理において、検索モデルの性能を評価するベンチマークであるMomentSeekerを提案する。平均で500秒を超える長いビデオが組み込まれており、長時間ビデオのモーメント検索に特化した最初のベンチマークとなっている。幅広いタスクカテゴリ(Moment Search, Caption Alignment, Image-conditioned Moment Search, Video-conditioned Moment Searchなど)と多様なアプリケーションシナリオをカバーする。さらに、MLLMベースのLVMRレトリバーを合成データ上に微調整し、ベンチマークで高い性能を示す。
論文参考訳（メタデータ） (2025-02-18T05:50:23Z)
Agent-based Video Trimming [17.519404251018308]
ビデオトリミング(VT)という新しいタスクを導入する。 VTは、無駄な映像を検出し、貴重なセグメントを選択し、それらをコヒーレントなストーリーで最終ビデオに構成することに焦点を当てている。 AVTは、ユーザスタディにおいてより好ましい評価を受け、YouTube Highlights、TVSum、および我々のデータセットにおいて、より優れたmAPと精度を示した。
論文参考訳（メタデータ） (2024-12-12T17:59:28Z)
Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文参考訳（メタデータ） (2024-04-04T11:59:06Z)
VLM-Eval: A General Evaluation on Video Large Language Models [16.92780012093112]
キャプション,質問と回答,検索,行動認識など,複数のビデオタスクを含む統合評価を導入する。本稿では, 1 つの線形射影を用いて既存のビデオ LLM より優れるビデオ-LLaVA を提案する。ビデオLLMを学術データセットを超えて評価し,数百対のビデオインストラクションペアのみを微調整で駆動シナリオの認識と推論能力を示す。
論文参考訳（メタデータ） (2023-11-20T16:02:10Z)
DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文参考訳（メタデータ） (2023-10-08T08:02:43Z)
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。 InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文参考訳（メタデータ） (2023-07-13T17:58:32Z)
Deep Learning for Video-Text Retrieval: a Review [13.341694455581363]
Video-Text Retrieval (VTR) は、ある文のセマンティクスに関連する最も関連性の高いビデオを探すことを目的としている。本稿では,VTRに関する100以上の研究論文をレビューし,要約する。
論文参考訳（メタデータ） (2023-02-24T10:14:35Z)
Occluded Video Instance Segmentation: Dataset and ICCV 2021 Challenge [133.80567761430584]
我々はOVISと呼ばれる大規模データセットを収集し、隠されたシナリオでビデオインスタンスのセグメンテーションを行う。 OVISは296kの高品質のインスタンスマスクと901の隠蔽シーンで構成されている。全てのベースライン法は、強吸収対象群で約80%の性能低下に遭遇する。
論文参考訳（メタデータ） (2021-11-15T17:59:03Z)
A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文参考訳（メタデータ） (2021-07-02T15:51:07Z)
VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。大規模なVidL事前学習による各種ベースライン法の評価を行った。我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文参考訳（メタデータ） (2021-06-08T18:34:21Z)
TRECVID 2020: A comprehensive campaign for evaluating video retrieval tasks across multiple application domains [8.841101408927058]
TREC Video Retrieval Evaluation(TRECVID)は、TREC形式のビデオ解析および検索評価です。本稿では,評価キャンペーンで使用される評価フレームワーク,タスク,データ,尺度について紹介する。
論文参考訳（メタデータ） (2021-04-27T20:59:27Z)
TRECVID 2019: An Evaluation Campaign to Benchmark Video Activity Detection, Video Captioning and Matching, and Video Search & Retrieval [7.132595104796215]
TRECVIDはNIST(National Institute of Standards and Technology)や他の米国政府機関から資金提供を受けている。本稿では,ワークショップで使用される評価フレームワーク,タスク,データ,尺度について紹介する。
論文参考訳（メタデータ） (2020-09-21T16:08:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。