論文の概要: NPF-200: A Multi-Modal Eye Fixation Dataset and Method for
Non-Photorealistic Videos
- arxiv url: http://arxiv.org/abs/2308.12163v1
- Date: Wed, 23 Aug 2023 14:25:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 13:57:38.851366
- Title: NPF-200: A Multi-Modal Eye Fixation Dataset and Method for
Non-Photorealistic Videos
- Title(参考訳): NPF-200:ノンフォトリアリスティックビデオのための多モードアイフィクスデータセットと方法
- Authors: Ziyu Yang, Sucheng Ren, Zongwei Wu, Nanxuan Zhao, Junle Wang, Jing
Qin, Shengfeng He
- Abstract要約: NPF-200は、視線を固定した純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットである。
私たちは一連の分析を行い、このタスクについてより深い洞察を得ます。
NPSNetと呼ばれる広帯域周波数対応マルチモーダル非フォトリアリスティックサリエンシ検出モデルを提案する。
- 参考スコア(独自算出の注目度): 51.409547544747284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-photorealistic videos are in demand with the wave of the metaverse, but
lack of sufficient research studies. This work aims to take a step forward to
understand how humans perceive non-photorealistic videos with eye fixation
(\ie, saliency detection), which is critical for enhancing media production,
artistic design, and game user experience. To fill in the gap of missing a
suitable dataset for this research line, we present NPF-200, the first
large-scale multi-modal dataset of purely non-photorealistic videos with eye
fixations. Our dataset has three characteristics: 1) it contains soundtracks
that are essential according to vision and psychological studies; 2) it
includes diverse semantic content and videos are of high-quality; 3) it has
rich motions across and within videos. We conduct a series of analyses to gain
deeper insights into this task and compare several state-of-the-art methods to
explore the gap between natural images and non-photorealistic data.
Additionally, as the human attention system tends to extract visual and audio
features with different frequencies, we propose a universal frequency-aware
multi-modal non-photorealistic saliency detection model called NPSNet,
demonstrating the state-of-the-art performance of our task. The results uncover
strengths and weaknesses of multi-modal network design and multi-domain
training, opening up promising directions for future works. {Our dataset and
code can be found at \url{https://github.com/Yangziyu/NPF200}}.
- Abstract(参考訳): 非フォトリアリスティックビデオはメタバースの波に要求されているが、十分な研究が不十分である。
この研究は、人間が視線固定による非フォトリアリスティックなビデオをどのように知覚するかを理解するために一歩前進することを目的としており、これはメディア制作、芸術デザイン、ゲームユーザー体験の向上に不可欠である。
この研究ラインに適したデータセットの欠如を補うために、眼球固定を伴う純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットNPF-200を提案する。
私たちのデータセットには3つの特徴があります
1) 視覚学及び心理学研究に欠かせないサウンドトラックを含む。
2)多種多様な意味コンテンツを含み,ビデオは高品質である。
3)動画中の動きが豊かである。
我々は,この課題に対する深い洞察を得るために一連の分析を行い,自然画像と非フォトリアリスティックデータとのギャップを探索するために,最先端の手法をいくつか比較する。
さらに、人間の注意システムは、異なる周波数の視覚的特徴や音声的特徴を抽出する傾向があるため、NPSNetと呼ばれる、普遍的な周波数対応マルチモーダルな非フォトリアリスティック・サリエンシ検出モデルを提案する。
その結果、マルチモーダルネットワーク設計とマルチドメイントレーニングの長所と短所が明らかとなり、今後の研究に期待できる方向性が開けた。
Our データセットとコードは \url{https://github.com/Yangziyu/NPF200}} にある。
関連論文リスト
- A Multimodal Framework for Deepfake Detection [0.0]
AIを使って合成メディアを作るDeepfakesは、ビデオやオーディオを説得力を持って修正して、現実を正しく表現する。
我々の研究は、革新的なマルチモーダルアプローチを通じて、ディープフェイクの重要な問題に対処する。
枠組みは視覚的・聴覚的分析を併用し,精度は94%であった。
論文 参考訳(メタデータ) (2024-10-04T14:59:10Z) - Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - Knowledge-enhanced Multi-perspective Video Representation Learning for
Scene Recognition [33.800842679024164]
我々は,映像シーン認識の課題に対処し,高レベルの映像表現を学習して映像シーンを分類することを目的とする。
既存の作品の多くは、時間的視点で視覚情報やテキスト情報のみからビデオのシーンを識別している。
複数の視点から映像表現をモデル化する新しい2ストリームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-09T04:37:10Z) - DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity
Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。
我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。
我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文 参考訳(メタデータ) (2023-07-19T17:58:03Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Robust Pose Transfer with Dynamic Details using Neural Video Rendering [48.48929344349387]
画像翻訳に基づくダイナミックディテール生成ネットワーク(D2G-Net)を組み合わせたニューラルビデオレンダリングフレームワークを提案する。
具体的には、テクスチャ表現を新たに提示し、静的およびポーズ変化の外観特性の両方を符号化する。
我々のニューラルヒューマンビデオは、2kから4kのフレームしか持たない短いビデオでも、より明確なダイナミックディテールとより堅牢なパフォーマンスを達成することができることを実証しています。
論文 参考訳(メタデータ) (2021-06-27T03:40:22Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - OmniDet: Surround View Cameras based Multi-task Visual Perception
Network for Autonomous Driving [10.3540046389057]
本研究は,未修正魚眼画像のマルチタスク視覚知覚ネットワークを提案する。
自動運転システムに必要な6つの主要なタスクで構成されている。
共同で訓練されたモデルは、それぞれのタスクバージョンよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-02-15T10:46:24Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。