論文の概要: Perception Test 2023: A Summary of the First Challenge And Outcome
- arxiv url: http://arxiv.org/abs/2312.13090v1
- Date: Wed, 20 Dec 2023 15:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 15:15:48.546600
- Title: Perception Test 2023: A Summary of the First Challenge And Outcome
- Title(参考訳): パーセプションテスト2023:最初の挑戦と成果の概要
- Authors: Joseph Heyward, Jo\~ao Carreira, Dima Damen, Andrew Zisserman, Viorica
P\u{a}tr\u{a}ucean
- Abstract要約: 最初のパーセプションテストは、IEEE/CVF International Conference on Computer Vision (ICCV) 2023と共に半日間のワークショップとして開催された。
目標は、最近提案されたPerception Testベンチマークで最先端のビデオモデルをベンチマークすることであった。
このレポートでは、タスク記述、メトリクス、ベースライン、結果について要約しています。
- 参考スコア(独自算出の注目度): 67.0525378209708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The First Perception Test challenge was held as a half-day workshop alongside
the IEEE/CVF International Conference on Computer Vision (ICCV) 2023, with the
goal of benchmarking state-of-the-art video models on the recently proposed
Perception Test benchmark. The challenge had six tracks covering low-level and
high-level tasks, with both a language and non-language interface, across
video, audio, and text modalities, and covering: object tracking, point
tracking, temporal action localisation, temporal sound localisation,
multiple-choice video question-answering, and grounded video
question-answering. We summarise in this report the task descriptions, metrics,
baselines, and results.
- Abstract(参考訳): 第1回知覚テストチャレンジは、ieee/cvf international conference on computer vision (iccv) 2023と共に半日のワークショップとして開催され、最近提案された知覚テストベンチマークで最先端のビデオモデルをベンチマークすることを目的としている。
課題は、言語と非言語の両方のインターフェース、ビデオ、音声、テキストのモダリティ、オブジェクトのトラッキング、ポイントトラッキング、時間的アクションの局所化、時間的音の局所化、マルチチョイスビデオの質疑応答、接地されたビデオ質問応答の6つのトラックであった。
このレポートではタスク記述、メトリクス、ベースライン、結果についてまとめています。
関連論文リスト
- The 2023 Video Similarity Dataset and Challenge [21.948679979507638]
この研究は、ビデオコピーの検出とローカライゼーションの問題に対するデータセット、ベンチマーク、課題を導入している。
このベンチマークは、これらの2つのタスクのメソッドを評価し、現実的なニードル・イン・ヘイスタック設定をシミュレートするように設計されている。
関連する課題は、2つの対応するトラックで構成され、それぞれに現実世界の設定を反映した制限がある。
論文 参考訳(メタデータ) (2023-06-15T20:34:43Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - The 2021 NIST Speaker Recognition Evaluation [1.5282767384702267]
2021話者認識評価 (2021 Speaker Recognition Evaluation, SRE21) は、1996年からアメリカ合衆国国立標準技術研究所 (NIST) が実施している評価シリーズの最新サイクルである。
本稿では,タスク,評価基準,データ,評価プロトコル,結果,システム性能分析などを含むSRE21の概要について述べる。
論文 参考訳(メタデータ) (2022-04-21T16:18:52Z) - Interactive Mobile App Navigation with Uncertain or Under-specified
Natural Language Commands [47.282510186109775]
モバイルアプリケーションTasks with Iterative Feedback (MoTIF)は、モバイルアプリで自然言語クエリを完了させることを目標とする、新たなデータセットです。
対話型質問応答,視覚的常識推論,質問応答の妥当性予測における関連課題に対する現在のデータセットは,あいまいな自然言語要求を解決するための研究を支援していない。
MoTIFには満足できない自然言語要求が含まれており、対話型視覚言語タスクにおいてこの問題を調査するための最初の研究である。
論文 参考訳(メタデータ) (2022-02-04T18:51:50Z) - Mobile App Tasks with Iterative Feedback (MoTIF): Addressing Task
Feasibility in Interactive Visual Environments [54.405920619915655]
これまで最大数のインタラクティブ環境向けに自然言語コマンドを用いたデータセットであるMoTIF(Iterative Feedback)を用いたモバイルアプリタスクを紹介します。
MoTIFは、満足できないインタラクティブ環境のための自然言語リクエストを最初に含んでいる。
初期実現可能性分類実験を行い、より豊かな視覚言語表現の必要性を検証し、f1スコア37.3まで到達した。
論文 参考訳(メタデータ) (2021-04-17T14:48:02Z) - The End-of-End-to-End: A Video Understanding Pentathlon Challenge (2020) [186.7816349401443]
我々は、IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2020と共同で開かれたオープンコンペティションである、新しいビデオ理解ペンタトロンチャレンジを紹介する。
課題は,テキスト・ビデオ検索の新しい手法を探求し,評価することであった。
論文 参考訳(メタデータ) (2020-08-03T09:55:26Z) - The NTT DCASE2020 Challenge Task 6 system: Automated Audio Captioning
with Keywords and Sentence Length Estimation [49.41766997393417]
本報告では, 音響シーン・イベントの検出・分類に関わるシステムについて述べる。
本論文は,音声の自動字幕化における2つの不確定性,すなわち,単語選択不確定性と文長不確定性に焦点をあてる。
マルチタスク学習によりキーワードと文長を推定することにより,主字幕生成と部分不確定化を同時に解決する。
論文 参考訳(メタデータ) (2020-07-01T04:26:27Z) - Dense-Captioning Events in Videos: SYSU Submission to ActivityNet
Challenge 2020 [8.462158729006715]
本報告では,ActivityNet Challenge 2020の高密度ビデオキャプションタスクについて,簡単な説明を行う。
提案手法は,テストセットの9.28 METEORスコアを達成する。
論文 参考訳(メタデータ) (2020-06-21T02:38:59Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。