論文の概要: Perception Test 2023: A Summary of the First Challenge And Outcome
- arxiv url: http://arxiv.org/abs/2312.13090v1
- Date: Wed, 20 Dec 2023 15:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 15:15:48.546600
- Title: Perception Test 2023: A Summary of the First Challenge And Outcome
- Title(参考訳): パーセプションテスト2023:最初の挑戦と成果の概要
- Authors: Joseph Heyward, Jo\~ao Carreira, Dima Damen, Andrew Zisserman, Viorica
P\u{a}tr\u{a}ucean
- Abstract要約: 最初のパーセプションテストは、IEEE/CVF International Conference on Computer Vision (ICCV) 2023と共に半日間のワークショップとして開催された。
目標は、最近提案されたPerception Testベンチマークで最先端のビデオモデルをベンチマークすることであった。
このレポートでは、タスク記述、メトリクス、ベースライン、結果について要約しています。
- 参考スコア(独自算出の注目度): 67.0525378209708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The First Perception Test challenge was held as a half-day workshop alongside
the IEEE/CVF International Conference on Computer Vision (ICCV) 2023, with the
goal of benchmarking state-of-the-art video models on the recently proposed
Perception Test benchmark. The challenge had six tracks covering low-level and
high-level tasks, with both a language and non-language interface, across
video, audio, and text modalities, and covering: object tracking, point
tracking, temporal action localisation, temporal sound localisation,
multiple-choice video question-answering, and grounded video
question-answering. We summarise in this report the task descriptions, metrics,
baselines, and results.
- Abstract(参考訳): 第1回知覚テストチャレンジは、ieee/cvf international conference on computer vision (iccv) 2023と共に半日のワークショップとして開催され、最近提案された知覚テストベンチマークで最先端のビデオモデルをベンチマークすることを目的としている。
課題は、言語と非言語の両方のインターフェース、ビデオ、音声、テキストのモダリティ、オブジェクトのトラッキング、ポイントトラッキング、時間的アクションの局所化、時間的音の局所化、マルチチョイスビデオの質疑応答、接地されたビデオ質問応答の6つのトラックであった。
このレポートではタスク記述、メトリクス、ベースライン、結果についてまとめています。
関連論文リスト
- AIM 2024 Challenge on Video Saliency Prediction: Methods and Results [105.09572982350532]
本稿では,AIM 2024におけるビデオ・サリエンシ予測の課題について概説する。
参加者の目標は、提供されたビデオシーケンスのセットに対して正確な精度マップを予測する方法を開発することであった。
論文 参考訳(メタデータ) (2024-09-23T08:59:22Z) - The 2nd Solution for LSVOS Challenge RVOS Track: Spatial-temporal Refinement for Consistent Semantic Segmentation [0.0]
本稿では,参照対象セグメンテーションモデルの時間的一貫性を高める手法を提案する。
提案手法は,ECCV 2024 LSVOS ChallengeにおいてRVOSトラックの最終ランキングで2位となった。
論文 参考訳(メタデータ) (2024-08-22T14:43:02Z) - 2nd Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation [8.20168024462357]
Motion Expression Guided Videoは、モーション記述付き自然言語表現に基づくビデオ内のオブジェクトのセグメンテーションを目的とした、挑戦的なタスクである。
本稿では、時間的拡張のための予備情報としてビデオインスタンス分割モデルから得られたマスク情報を紹介し、空間的洗練のためにSAMを用いる。
CVPR 2024 PVUW Challengeでは,試験段階では49.92 J &F,試験段階では54.20 J &F,MeViS Trackでは2位となった。
論文 参考訳(メタデータ) (2024-06-20T02:16:23Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - The 2021 NIST Speaker Recognition Evaluation [1.5282767384702267]
2021話者認識評価 (2021 Speaker Recognition Evaluation, SRE21) は、1996年からアメリカ合衆国国立標準技術研究所 (NIST) が実施している評価シリーズの最新サイクルである。
本稿では,タスク,評価基準,データ,評価プロトコル,結果,システム性能分析などを含むSRE21の概要について述べる。
論文 参考訳(メタデータ) (2022-04-21T16:18:52Z) - Mobile App Tasks with Iterative Feedback (MoTIF): Addressing Task
Feasibility in Interactive Visual Environments [54.405920619915655]
これまで最大数のインタラクティブ環境向けに自然言語コマンドを用いたデータセットであるMoTIF(Iterative Feedback)を用いたモバイルアプリタスクを紹介します。
MoTIFは、満足できないインタラクティブ環境のための自然言語リクエストを最初に含んでいる。
初期実現可能性分類実験を行い、より豊かな視覚言語表現の必要性を検証し、f1スコア37.3まで到達した。
論文 参考訳(メタデータ) (2021-04-17T14:48:02Z) - The End-of-End-to-End: A Video Understanding Pentathlon Challenge (2020) [186.7816349401443]
我々は、IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2020と共同で開かれたオープンコンペティションである、新しいビデオ理解ペンタトロンチャレンジを紹介する。
課題は,テキスト・ビデオ検索の新しい手法を探求し,評価することであった。
論文 参考訳(メタデータ) (2020-08-03T09:55:26Z) - The NTT DCASE2020 Challenge Task 6 system: Automated Audio Captioning
with Keywords and Sentence Length Estimation [49.41766997393417]
本報告では, 音響シーン・イベントの検出・分類に関わるシステムについて述べる。
本論文は,音声の自動字幕化における2つの不確定性,すなわち,単語選択不確定性と文長不確定性に焦点をあてる。
マルチタスク学習によりキーワードと文長を推定することにより,主字幕生成と部分不確定化を同時に解決する。
論文 参考訳(メタデータ) (2020-07-01T04:26:27Z) - Dense-Captioning Events in Videos: SYSU Submission to ActivityNet
Challenge 2020 [8.462158729006715]
本報告では,ActivityNet Challenge 2020の高密度ビデオキャプションタスクについて,簡単な説明を行う。
提案手法は,テストセットの9.28 METEORスコアを達成する。
論文 参考訳(メタデータ) (2020-06-21T02:38:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。