論文の概要: Noise-Aware Saliency Prediction for Videos with Incomplete Gaze Data
- arxiv url: http://arxiv.org/abs/2104.08038v1
- Date: Fri, 16 Apr 2021 11:32:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:33:05.407813
- Title: Noise-Aware Saliency Prediction for Videos with Incomplete Gaze Data
- Title(参考訳): 不完全視線データを用いた映像の雑音対応サルリエンシー予測
- Authors: Ekta Prashnani, Orazio Gallo, Joohwan Kim, Josef Spjut, Pradeep Sen,
Iuri Frosio
- Abstract要約: 本研究では,視線データの不完全性や不正確性から生じる不確実性を定量化する視覚的サリエンス予測のためのノイズアウェアトレーニングパラダイムを提案する。
豊富な時間的セマンティクスとフレームごとの複数の視線引き付けを備えたビデオサリエンス研究のためのビデオゲームコンテキストを提供する最初のデータセットを紹介します。
- 参考スコア(独自算出の注目度): 21.471144304174917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep-learning-based algorithms have led to impressive results in
visual-saliency prediction, but the impact of noise in training gaze data has
been largely overlooked. This issue is especially relevant for videos, where
the gaze data tends to be incomplete, and thus noisier, compared to images.
Therefore, we propose a noise-aware training (NAT) paradigm for visual-saliency
prediction that quantifies the uncertainty arising from gaze data
incompleteness and inaccuracy, and accounts for it in training. We demonstrate
the advantage of NAT independently of the adopted model architecture, loss
function, or training dataset. Given its robustness to the noise in incomplete
training datasets, NAT ushers in the possibility of designing gaze datasets
with fewer human subjects. We also introduce the first dataset that offers a
video-game context for video-saliency research, with rich temporal semantics,
and multiple gaze attractors per frame.
- Abstract(参考訳): ディープラーニングに基づくアルゴリズムは、視覚的信頼性予測において驚くべき結果をもたらしたが、視線データのトレーニングにおけるノイズの影響はほとんど見過ごされてきた。
この問題は特に、視線データが不完全で、画像に比べてノイズが多いビデオに関係している。
そこで本稿では,視線データの不完全性や不正確性から生じる不確実性を定量化し,トレーニングにおいて考慮すべきノイズ認識トレーニング(NAT)パラダイムを提案する。
導入したモデルアーキテクチャや損失関数,あるいはデータセットのトレーニングとは独立して,natのメリットを実証する。
不完全なトレーニングデータセットのノイズに対する堅牢性を考えると、NATはより少ない被験者で視線データセットを設計できる可能性を示唆している。
また,時間的セマンティクスが豊富で,フレーム毎に複数の視線を引き付けるような,ビデオ・セマンティクスのためのゲームコンテキストを提供する最初のデータセットも紹介する。
関連論文リスト
- Fractals as Pre-training Datasets for Anomaly Detection and Localization [0.0]
異常検出は、欠陥部分の検出とローカライズを支援するため、大規模製造業において不可欠である。
大規模データセットの事前トレーニング機能抽出は、このタスクの一般的なアプローチである。
動的に生成されたフラクタル画像を用いて事前学習した8つの最先端手法の性能を評価する。
論文 参考訳(メタデータ) (2024-05-11T10:35:42Z) - Towards Principled Representation Learning from Videos for Reinforcement Learning [23.877731515619868]
ビデオデータを用いた意思決定のための事前学習表現について検討する。
我々は,ビデオデータを用いたMDPの潜在状態表現の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-03-20T17:28:17Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Pre-training via Denoising for Molecular Property Prediction [53.409242538744444]
本稿では,3次元分子構造の大規模データセットを平衡に利用した事前学習手法について述べる。
近年のノイズレギュラー化の進展に触発されて, 事前学習の目的は, 雑音の除去に基づくものである。
論文 参考訳(メタデータ) (2022-05-31T22:28:34Z) - Uncertainty-Aware Multi-View Representation Learning [53.06828186507994]
動的不確実性認識ネットワーク(DUA-Nets)と呼ばれる新しい教師なし多視点学習手法を考案する。
生成視点から推定されるデータの不確実性により、複数の視点からの固有情報が統合され、ノイズのない表現が得られる。
本モデルでは, 広範囲な実験において優れた性能を示し, ノイズの多いデータに対するロバスト性を示す。
論文 参考訳(メタデータ) (2022-01-15T07:16:20Z) - Unsupervised Scale-consistent Depth Learning from Video [131.3074342883371]
本研究では,単眼深度推定器SC-Depthを提案する。
スケール一貫性予測の能力により,我々の単分子学習深層ネットワークは簡単にORB-SLAM2システムに統合可能であることを示す。
提案したハイブリッドPseudo-RGBD SLAMは、KITTIにおいて魅力的な結果を示し、追加のトレーニングなしでKAISTデータセットにうまく一般化する。
論文 参考訳(メタデータ) (2021-05-25T02:17:56Z) - Implicit Saliency in Deep Neural Networks [15.510581400494207]
本稿では,既存の認識と局所化の深部構造が人間の視覚的正当性を予測できることを示す。
予測ミスマッチ仮説を教師なし方式で計算し,その暗黙の正当性を計算する。
実験の結果,この方法での塩分濃度の抽出は,最先端の教師付きアルゴリズムに対して測定した場合と同等の性能を示すことがわかった。
論文 参考訳(メタデータ) (2020-08-04T23:14:24Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。