論文の概要: Comment on "No-Reference Video Quality Assessment Based on the Temporal
Pooling of Deep Features"
- arxiv url: http://arxiv.org/abs/2005.04400v1
- Date: Sat, 9 May 2020 09:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 06:52:14.023073
- Title: Comment on "No-Reference Video Quality Assessment Based on the Temporal
Pooling of Deep Features"
- Title(参考訳): 深い特徴の時間的ポーリングに基づく非参照ビデオ品質評価」へのコメント
- Authors: Franz G\"otz-Hahn, Vlad Hosu, Dietmar Saupe
- Abstract要約: ニューラルプロセッシングレター50,3では、ブラインドビデオ品質評価のための機械学習アプローチが提案された。
これは、深層畳み込みニューラルネットワークの最後のプール層から取り出されたビデオフレームの特徴の時間プールに基づいている。
この方法は、2つの確立されたベンチマークデータセットで検証され、以前の最先端モデルよりもはるかに良い結果が得られた。
当初報告された不正な性能結果が,データ漏洩の2例の結果であることを示す。
- 参考スコア(独自算出の注目度): 6.746400031322727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Neural Processing Letters 50,3 (2019) a machine learning approach to blind
video quality assessment was proposed. It is based on temporal pooling of
features of video frames, taken from the last pooling layer of deep
convolutional neural networks. The method was validated on two established
benchmark datasets and gave results far better than the previous
state-of-the-art. In this letter we report the results from our careful
reimplementations. The performance results, claimed in the paper, cannot be
reached, and are even below the state-of-the-art by a large margin. We show
that the originally reported wrong performance results are a consequence of two
cases of data leakage. Information from outside the training dataset was used
in the fine-tuning stage and in the model evaluation.
- Abstract(参考訳): ニューラルプロセッシングレター50,3(2019)では、ブラインドビデオ品質評価のための機械学習アプローチが提案された。
これは、ディープ畳み込みニューラルネットワークの最後のプール層から取られたビデオフレームの特徴の時間的プーリングに基づいている。
この方法は、2つの確立されたベンチマークデータセットで検証され、以前の最先端よりもはるかに良い結果が得られた。
この手紙では、注意深い再実装の結果を報告します。
論文で主張されているパフォーマンスの結果は到達できず、最先端よりも大きなマージンで下回っています。
当初報告された不正な結果が,データ漏洩の2例の結果であることを示す。
トレーニングデータセットの外部からの情報は、微調整段階とモデル評価で使用された。
関連論文リスト
- Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors [54.8852848659663]
Buffer Anytimeは、ビデオから深さと正規マップ(幾何バッファと呼ばれる)を推定するためのフレームワークです。
時間的整合性制約を持つ単一画像の先行値を活用することによって,高品質なビデオバッファ推定を実証する。
論文 参考訳(メタデータ) (2024-11-26T09:28:32Z) - Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Unsupervised Video Summarization via Multi-source Features [4.387757291346397]
ビデオ要約は、オリジナルビデオの本質を伝達するコンパクトだが代表的な視覚的要約を生成することを目的としている。
本稿では,複数の特徴源をチャンクとストライド融合で組み込むことにより,視覚的コンテンツについてより詳細な情報を提供する。
また,TVSumとSumMeの2つのベンチマークを総合的に評価するために,本手法を4つの最先端手法と比較した。
論文 参考訳(メタデータ) (2021-05-26T13:12:46Z) - Weakly Supervised Video Salient Object Detection [79.51227350937721]
本稿では,relabeled relabeled "fixation guided scribble annotations" に基づく最初の弱教師付きビデオサリエント物体検出モデルを提案する。
効果的なマルチモーダル学習と長期時間文脈モデリングを実現するために,「アプレンス・モーション・フュージョン・モジュール」と双方向のConvLSTMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-06T09:48:38Z) - W2WNet: a two-module probabilistic Convolutional Neural Network with
embedded data cleansing functionality [2.695466667982714]
wise2wipednet (w2wnet) は新しい2モジュール畳み込みニューラルネットワークである。
Wiseモジュールはベイズ推定を利用してトレーニング中にスプリアス画像を特定し、破棄する。
消去されたモジュールは、推測時の予測信頼度に関する情報を放送しながら最終分類を処理する。
論文 参考訳(メタデータ) (2021-03-24T11:28:59Z) - Improving Action Quality Assessment using ResNets and Weighted
Aggregation [0.0]
アクション品質評価(AQA)は、そのアクションのビデオに基づいて人間の行動を自動的に判断し、パフォーマンススコアを割り当てることを目指しています。
AQAの既存の文献の多くは、RGBのビデオをC3Dネットワークを使って高レベルな表現に変換する。
C3Dの比較的浅い性質のため、抽出された特徴の質はより深い畳み込みニューラルネットワークを用いて抽出できるものよりも低い。
論文 参考訳(メタデータ) (2021-02-21T08:36:22Z) - Critical analysis on the reproducibility of visual quality assessment
using deep features [6.746400031322727]
教師付き機械学習モデルのトレーニングに使用されるデータは、一般的に独立したトレーニング、検証、テストセットに分割される。
本稿では,非参照画像と映像品質評価文献に複雑なデータ漏洩事件が発生したことを示す。
論文 参考訳(メタデータ) (2020-09-10T09:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。