論文の概要: Pioneering Perceptual Video Fluency Assessment: A Novel Task with Benchmark Dataset and Baseline
- arxiv url: http://arxiv.org/abs/2603.26055v1
- Date: Fri, 27 Mar 2026 03:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.348611
- Title: Pioneering Perceptual Video Fluency Assessment: A Novel Task with Benchmark Dataset and Baseline
- Title(参考訳): 知覚的ビデオ周波数評価のパイオニア化:ベンチマークデータセットとベースラインを用いた新しいタスク
- Authors: Qizhi Xie, Kun Yuan, Yunpeng Qu, Ming Sun, Chao Zhou, Jihong Zhu,
- Abstract要約: 初回評価基準と人間によるビデオ流速評価(VFA)を特徴とする流速指向型データセットであるFluVidを開発した。
本稿では,FluNetと呼ばれるベースラインモデルを提案する。このモデルでは,時間的パーミューテッドな自己アテンションをデプロイし,入力流速情報を強化し,長距離フレーム間相互作用を強化する。
私たちの仕事は最先端のパフォーマンスを実現し、コミュニティにVFAのソリューションを探求するためのロードマップを提供します。
- 参考スコア(独自算出の注目度): 12.41142742925495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately estimating humans' subjective feedback on video fluency, e.g., motion consistency and frame continuity, is crucial for various applications like streaming and gaming. Yet, it has long been overlooked, as prior arts have focused on solving it in the video quality assessment (VQA) task, merely as a sub-dimension of overall quality. In this work, we conduct pilot experiments and reveal that current VQA predictions largely underrepresent fluency, thereby limiting their applicability. To this end, we pioneer Video Fluency Assessment (VFA) as a standalone perceptual task focused on the temporal dimension. To advance VFA research, 1) we construct a fluency-oriented dataset, FluVid, comprising 4,606 in-the-wild videos with balanced fluency distribution, featuring the first-ever scoring criteria and human study for VFA. 2) We develop a large-scale benchmark of 23 methods, the most comprehensive one thus far on FluVid, gathering insights for VFA-tailored model designs. 3) We propose a baseline model called FluNet, which deploys temporal permuted self-attention (T-PSA) to enrich input fluency information and enhance long-range inter-frame interactions. Our work not only achieves state-of-the-art performance but, more importantly, offers the community a roadmap to explore solutions for VFA.
- Abstract(参考訳): 動画の流速に対する人間の主観的なフィードバックを正確に見積もるのは、例えば、動きの一貫性とフレームの連続性であり、ストリーミングやゲームといった様々なアプリケーションにとって重要である。
しかし、従来の芸術はビデオ品質評価(VQA)タスクにおいて、全体的な品質のサブディメンジョンとして解決することに重点を置いてきたため、長い間見過ごされてきた。
本研究は,パイロット実験を行い,現在のVQA予測は流速がほとんど低く,適用性に制限があることを明らかにする。
この目的のために、時間次元に着目したスタンドアロンの知覚タスクとして、VFA(Video Fluency Assessment)を開拓した。
VFA研究を推進。
1) フルーエンシ指向のデータセットであるFluVidを構築し,VFAのための評価基準と人間による研究を特徴とする,バランスの取れたフルーエンシ分布の動画4,606枚を収録した。
2) これまでにFluVid上で最も包括的な23の手法を大規模に評価し, VFAモデル設計の知見を収集する。
3)FluNetと呼ばれるベースラインモデルを提案する。このモデルでは,T-PSA(temporal permuted self-attention)をデプロイし,入力流速情報を強化し,長距離フレーム間相互作用を強化する。
私たちの仕事は、最先端のパフォーマンスを達成するだけでなく、より重要なのは、コミュニティにVFAのソリューションを探求するためのロードマップを提供しています。
関連論文リスト
- Video-LLMs with Temporal Visual Screening [59.18455762289321]
テンポラル・ビジュアル・スクリーニング (TVS) はビデオ質問応答とチューニングデータを処理する新しいタスクである。
TVSは、ビデオインストラクションチューニング(トレーニング)とビデオ質問回答(推論)パイプラインの両方にシームレスに統合可能な、モジュール化されたフロントエンドアダプタタスクとして定式化されている。
実験により、TVSを取り入れた場合、相対利得は7.33%(トレーニング)、34.6%(推論)となることが示された。
論文 参考訳(メタデータ) (2025-08-27T14:33:32Z) - AceVFI: A Comprehensive Survey of Advances in Video Frame Interpolation [8.563354084119062]
ビデオフレーム補間(VFI)は、既存のフレーム間で中間フレームを合成する基本的な低レベルビジョン(LLV)タスクである。
これまでにVFIに関する最も包括的な調査であるAceVFIを紹介します。
中心時間フレーム補間(CTFI)と任意時間フレーム補間(ATFI)の学習パラダイムを分類する。
論文 参考訳(メタデータ) (2025-06-01T16:01:24Z) - DVLTA-VQA: Decoupled Vision-Language Modeling with Text-Guided Adaptation for Blind Video Quality Assessment [17.85550556489256]
本稿では,Blind Video Quality Assessment (DVLTA-VQA) のためのテキストガイド適応を用いたデカップリング型視覚言語モデルを提案する。
ビデオベーステンポラルCLIPモジュールは、時間的ダイナミクスを明示的にモデル化し、背側ストリームと整合して運動知覚を高める。
時間的コンテキストモジュールは、フレーム間の依存関係を洗練し、モーションモデリングをさらに改善するために開発されている。
最後に、空間情報と時間情報のより効果的な統合を可能にするために、テキスト誘導型適応融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-16T03:20:28Z) - FVQ: A Large-Scale Dataset and an LMM-based Method for Face Video Quality Assessment [58.412934167692924]
顔映像品質評価(FVQA)は、一般的な映像品質評価(VQA)に加え、検討すべきである。
FVQ-20Kは2万件の顔ビデオとそれに対応する平均世論スコア(MOS)アノテーションを含む。
また,FVQ-Raterという特殊なFVQA手法を提案する。
論文 参考訳(メタデータ) (2025-04-12T15:26:02Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - VideoEval: Comprehensive Benchmark Suite for Low-Cost Evaluation of Video Foundation Model [22.188795668927586]
ビデオファウンデーションモデル(VFM)は近年大きな進歩を遂げている。
既存のベンチマークと評価プロトコルは、比較的低い多様性、高い評価コスト、飽和したパフォーマンスメトリクスによって制限されることが多い。
これらの問題、すなわちVideoEvalに対処するための包括的なベンチマークスイートを構築しています。
論文 参考訳(メタデータ) (2024-07-09T01:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。