論文の概要: SF20K Competition 2025: Summary and findings
- arxiv url: http://arxiv.org/abs/2605.01496v1
- Date: Sat, 02 May 2026 15:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.80466
- Title: SF20K Competition 2025: Summary and findings
- Title(参考訳): SF20Kコンペティション2025:概要と結果
- Authors: Ridouane Ghermi, Xi Wang, Vicky Kalogeiton, Ivan Laptev,
- Abstract要約: ショートフィルム20K(SF20K)コンペティションは、ショートクリップアクション認識以上のストーリーレベルのビデオ理解を促進するように設計されている。
モデルは人気映画の記憶よりもマルチモーダルな理解に頼らなければならない。
優勝チームはメイントラックで65.7%、スペシャルトラックで48.7%、人間のパフォーマンス天井で91.7%の精度を達成した。
- 参考スコア(独自算出の注目度): 34.86183179717155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report presents the results and findings of the first edition of the Short-Films 20K (SF20K) Competition, held in conjunction with the SLoMO Workshop at ICCV 2025. The competition is designed to advance story-level video understanding beyond short-clip action recognition, introducing an open-ended video question-answering task built on a corpus of amateur short films. This setup ensures that models must rely on multimodal understanding rather than memorization of popular movies. Evaluation is conducted using the SF20K-Test benchmark (95 movies, 979 question-answer pairs) and scored via LLM-QA-Eval, an automated judge based on GPT-4.1-nano. The competition attracted 22 teams and 286 submissions across two tracks: a Main Track with unrestricted model size and a Special Track limited to models under 8 billion parameters. The winning team achieved 65.7% accuracy on the Main Track and 48.7% on the Special Track, against a human performance ceiling of 91.7%. Our analysis reveals several key findings: narrative-aware, shot-level processing consistently outperforms uniform frame sampling; well-designed multi-stage pipelines using smaller models can match or exceed end-to-end inference with models over 30x larger; and subtitle quality is a dominant factor in performance. These results highlight that the primary bottleneck in long-form video QA lies in information selection and reasoning structure rather than raw model capacity, and that a substantial gap remains between current methods and human-level narrative comprehension.
- Abstract(参考訳): 本報告では,ICCV 2025のSLoMOワークショップと共同で開催されたSF20Kコンペティションの第1回大会の結果と成果を報告する。
このコンペティションは、短編のアクション認識を超えてストーリーレベルのビデオ理解を推進し、アマチュア短編映画のコーパス上に構築されたオープンエンドのビデオ質問応答タスクを導入するように設計されている。
この設定により、モデルは人気映画の記憶よりもマルチモーダルな理解に頼らなければならない。
評価はSF20K-Testベンチマーク(95本の映画、979本の質問応答ペア)を用いて行われ、GPT-4.1-nanoに基づく自動判定器であるLLM-QA-Evalを介して行われる。
競技には22のチームと286の応募があり、モデルサイズが制限されていないメイントラックと80億のパラメータ未満のモデルに制限されたスペシャルトラックの2つのトラックが参加した。
優勝チームはメイントラックで65.7%、スペシャルトラックで48.7%、人間のパフォーマンス天井で91.7%を獲得した。
我々の分析では、物語認識、ショットレベル処理が一様フレームサンプリングより一貫して優れていること、より小さなモデルを用いたよく設計されたマルチステージパイプラインが30倍以上のモデルでエンドツーエンドの推論に適合または超えること、サブタイトル品質がパフォーマンスの主要な要因であることを示す。
これらの結果から,長期ビデオQAの主なボトルネックは,生のモデル能力よりも情報選択と推論構造にあり,現在の手法と人間レベルの物語理解との間には大きなギャップが残っていることが示唆された。
関連論文リスト
- VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos [41.9704057910616]
大型モデルの多段階推論能力を評価するために開発されたVRBenchは,最初の長めのナラティブビデオベンチマークである。
ビデオの長さは960本(平均1.6時間)で、人間ラベル付き多段階質問応答ペア8,243本、タイムスタンプ付き推論ステップ25,106本だ。
論文 参考訳(メタデータ) (2025-06-12T16:17:17Z) - Law of the Weakest Link: Cross Capabilities of Large Language Models [102.91861246827797]
我々は,Large Language Models (LLMs) が "Law of the Weakest Link" を示すことを示した。
これらの結果は, クロスキャパビリティタスクにおけるLLMの低性能化を浮き彫りにした。
論文 参考訳(メタデータ) (2024-09-30T05:12:01Z) - AIM 2024 Challenge on Video Saliency Prediction: Methods and Results [105.09572982350532]
本稿では,AIM 2024におけるビデオ・サリエンシ予測の課題について概説する。
参加者の目標は、提供されたビデオシーケンスのセットに対して正確な精度マップを予測する方法を開発することであった。
論文 参考訳(メタデータ) (2024-09-23T08:59:22Z) - AIM 2024 Challenge on Compressed Video Quality Assessment: Methods and Results [120.95863275142727]
本稿では,ECCV 2024における画像操作の進歩(AIM)ワークショップと共同で開催されている圧縮映像品質評価の課題について述べる。
この課題は、様々な圧縮標準の14コーデックで符号化された459本の動画の多様なデータセット上で、VQA法の性能を評価することであった。
論文 参考訳(メタデータ) (2024-08-21T20:32:45Z) - Skating-Mixer: Multimodal MLP for Scoring Figure Skating [31.346611498891964]
我々はSkating-Mixerというマルチモーダルアーキテクチャを導入する。
設計したメモリリカレントユニット(MRU)を用いて,長期的表現を効果的に学習する。
実験により、提案手法は、公開Fis-VおよびFS1000データセット上のすべての主要な指標に対してSOTAよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-03-08T10:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。