論文の概要: NPF-200: A Multi-Modal Eye Fixation Dataset and Method for
Non-Photorealistic Videos
- arxiv url: http://arxiv.org/abs/2308.12163v1
- Date: Wed, 23 Aug 2023 14:25:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 13:57:38.851366
- Title: NPF-200: A Multi-Modal Eye Fixation Dataset and Method for
Non-Photorealistic Videos
- Title(参考訳): NPF-200:ノンフォトリアリスティックビデオのための多モードアイフィクスデータセットと方法
- Authors: Ziyu Yang, Sucheng Ren, Zongwei Wu, Nanxuan Zhao, Junle Wang, Jing
Qin, Shengfeng He
- Abstract要約: NPF-200は、視線を固定した純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットである。
私たちは一連の分析を行い、このタスクについてより深い洞察を得ます。
NPSNetと呼ばれる広帯域周波数対応マルチモーダル非フォトリアリスティックサリエンシ検出モデルを提案する。
- 参考スコア(独自算出の注目度): 51.409547544747284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-photorealistic videos are in demand with the wave of the metaverse, but
lack of sufficient research studies. This work aims to take a step forward to
understand how humans perceive non-photorealistic videos with eye fixation
(\ie, saliency detection), which is critical for enhancing media production,
artistic design, and game user experience. To fill in the gap of missing a
suitable dataset for this research line, we present NPF-200, the first
large-scale multi-modal dataset of purely non-photorealistic videos with eye
fixations. Our dataset has three characteristics: 1) it contains soundtracks
that are essential according to vision and psychological studies; 2) it
includes diverse semantic content and videos are of high-quality; 3) it has
rich motions across and within videos. We conduct a series of analyses to gain
deeper insights into this task and compare several state-of-the-art methods to
explore the gap between natural images and non-photorealistic data.
Additionally, as the human attention system tends to extract visual and audio
features with different frequencies, we propose a universal frequency-aware
multi-modal non-photorealistic saliency detection model called NPSNet,
demonstrating the state-of-the-art performance of our task. The results uncover
strengths and weaknesses of multi-modal network design and multi-domain
training, opening up promising directions for future works. {Our dataset and
code can be found at \url{https://github.com/Yangziyu/NPF200}}.
- Abstract(参考訳): 非フォトリアリスティックビデオはメタバースの波に要求されているが、十分な研究が不十分である。
この研究は、人間が視線固定による非フォトリアリスティックなビデオをどのように知覚するかを理解するために一歩前進することを目的としており、これはメディア制作、芸術デザイン、ゲームユーザー体験の向上に不可欠である。
この研究ラインに適したデータセットの欠如を補うために、眼球固定を伴う純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットNPF-200を提案する。
私たちのデータセットには3つの特徴があります
1) 視覚学及び心理学研究に欠かせないサウンドトラックを含む。
2)多種多様な意味コンテンツを含み,ビデオは高品質である。
3)動画中の動きが豊かである。
我々は,この課題に対する深い洞察を得るために一連の分析を行い,自然画像と非フォトリアリスティックデータとのギャップを探索するために,最先端の手法をいくつか比較する。
さらに、人間の注意システムは、異なる周波数の視覚的特徴や音声的特徴を抽出する傾向があるため、NPSNetと呼ばれる、普遍的な周波数対応マルチモーダルな非フォトリアリスティック・サリエンシ検出モデルを提案する。
その結果、マルチモーダルネットワーク設計とマルチドメイントレーニングの長所と短所が明らかとなり、今後の研究に期待できる方向性が開けた。
Our データセットとコードは \url{https://github.com/Yangziyu/NPF200}} にある。
関連論文リスト
- VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding [59.020450264301026]
VideoLLaMA3は、画像とビデオの理解のためのより高度なマルチモーダル基盤モデルである。
VideoLLaMA3には、視覚適応、視覚言語調整、ファインチューニング、ビデオ中心のファインチューニングの4つのトレーニングステージがある。
VideoLLaMA3は、画像理解ベンチマークとビデオ理解ベンチマークの両方で魅力的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-01-22T18:59:46Z) - VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation [70.68566282567207]
VisionRewardは細粒度で多次元の報酬モデルである。
我々は、画像やビデオの人間の好みを多次元に分解する。
VisionRewardに基づく多目的選好学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-12-30T16:24:09Z) - T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs [102.66246727371583]
そこで我々は,T2Vidと呼ばれるビデオライクなサンプルを合成し,学習コーパスの多様性を高める手法を開発した。
提案手法は,長いビデオサンプルをトレーニングすることなく,長いビデオ理解の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - Knowledge-enhanced Multi-perspective Video Representation Learning for
Scene Recognition [33.800842679024164]
我々は,映像シーン認識の課題に対処し,高レベルの映像表現を学習して映像シーンを分類することを目的とする。
既存の作品の多くは、時間的視点で視覚情報やテキスト情報のみからビデオのシーンを識別している。
複数の視点から映像表現をモデル化する新しい2ストリームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-09T04:37:10Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - OmniDet: Surround View Cameras based Multi-task Visual Perception
Network for Autonomous Driving [10.3540046389057]
本研究は,未修正魚眼画像のマルチタスク視覚知覚ネットワークを提案する。
自動運転システムに必要な6つの主要なタスクで構成されている。
共同で訓練されたモデルは、それぞれのタスクバージョンよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-02-15T10:46:24Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。