論文の概要: Text-Audio-Visual-conditioned Diffusion Model for Video Saliency Prediction
- arxiv url: http://arxiv.org/abs/2504.14267v1
- Date: Sat, 19 Apr 2025 11:30:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 03:40:18.946449
- Title: Text-Audio-Visual-conditioned Diffusion Model for Video Saliency Prediction
- Title(参考訳): ビデオ・サイリエンシ予測のためのテキスト・オーディオ・ビジュアル・コンディショニング拡散モデル
- Authors: Li Yu, Xuanzhe Sun, Wei Zhou, Moncef Gabbouj,
- Abstract要約: 本稿では,ビデオ・サリエンシ予測のためのテキスト・オーディオ・ビジュアル・コンディショニング・ディフュージョン・モデルであるTAVDiffを提案する。
テキストを効果的に活用するために、ビデオフレームのテキスト記述を生成するために、大規模なマルチモーダルモデルが使用される。
聴覚のモダリティに関しては、モデルが音によって示される健全な領域に焦点を合わせるための別の条件情報として使用される。
- 参考スコア(独自算出の注目度): 17.85550556489256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video saliency prediction is crucial for downstream applications, such as video compression and human-computer interaction. With the flourishing of multimodal learning, researchers started to explore multimodal video saliency prediction, including audio-visual and text-visual approaches. Auditory cues guide the gaze of viewers to sound sources, while textual cues provide semantic guidance for understanding video content. Integrating these complementary cues can improve the accuracy of saliency prediction. Therefore, we attempt to simultaneously analyze visual, auditory, and textual modalities in this paper, and propose TAVDiff, a Text-Audio-Visual-conditioned Diffusion Model for video saliency prediction. TAVDiff treats video saliency prediction as an image generation task conditioned on textual, audio, and visual inputs, and predicts saliency maps through stepwise denoising. To effectively utilize text, a large multimodal model is used to generate textual descriptions for video frames and introduce a saliency-oriented image-text response (SITR) mechanism to generate image-text response maps. It is used as conditional information to guide the model to localize the visual regions that are semantically related to the textual description. Regarding the auditory modality, it is used as another conditional information for directing the model to focus on salient regions indicated by sounds. At the same time, since the diffusion transformer (DiT) directly concatenates the conditional information with the timestep, which may affect the estimation of the noise level. To achieve effective conditional guidance, we propose Saliency-DiT, which decouples the conditional information from the timestep. Experimental results show that TAVDiff outperforms existing methods, improving 1.03\%, 2.35\%, 2.71\% and 0.33\% on SIM, CC, NSS and AUC-J metrics, respectively.
- Abstract(参考訳): ビデオ圧縮や人間とコンピュータのインタラクションなど、下流のアプリケーションには、ビデオのサリエンシ予測が不可欠である。
マルチモーダルな学習が盛んになると、研究者たちは音声・視覚・テキスト・視覚的アプローチを含むマルチモーダルなビデオ・サリエンシの予測を探求し始めた。
オーディトリー・キューは視聴者の視線を音源に導き、テキスト・キューは映像コンテンツを理解するための意味的なガイダンスを提供する。
これらの相補的な手がかりを統合することで、相補性予測の精度が向上する。
そこで本稿では,映像の視覚・聴覚・テキストのモダリティを同時に解析し,テキスト・オーディオ・ビジュアル・コンディショニング・ディフュージョン・モデルであるTAVDiffを提案する。
TAVDiffは、テキスト入力、音声入力、視覚入力を条件とした画像生成タスクとして、ビデオのサリエンシ予測を扱い、ステップワイズによるサリエンシマップの予測を行う。
テキストを効果的に活用するために、大規模なマルチモーダルモデルを用いてビデオフレームのテキスト記述を生成し、画像テキスト応答マップを生成するために、サリエンシ指向の画像テキスト応答(SITR)機構を導入する。
これは、モデルがテキスト記述と意味的に関連する視覚領域をローカライズするために、条件情報として使用される。
聴覚のモダリティに関しては、モデルが音によって示される健全な領域に焦点を合わせるための別の条件情報として使用される。
同時に、拡散変圧器(DiT)は条件情報を時間ステップと直接結合するので、ノイズレベルの推定に影響を及ぼす可能性がある。
そこで本研究では,条件情報をタイムステップから切り離したSaliency-DiTを提案する。
TAVDiffは,SIM,CC,NAS,AUC-Jでそれぞれ1.03\%,2.35\%,2.71\%,0.33\%向上した。
関連論文リスト
- Learning to Unify Audio, Visual and Text for Audio-Enhanced Multilingual Visual Answer Localization [4.062872727927056]
MVAL(Multilingual Visual Answer Localization)の目的は、与えられた多言語質問に答えるビデオセグメントを見つけることである。
既存の手法は、視覚的モダリティのみに焦点を当てるか、視覚的モダリティとサブタイトルのモダリティを統合する。
本稿では,音声モダリティを組み込んで視覚的・テキスト的表現を増強するAVTSL法を提案する。
論文 参考訳(メタデータ) (2024-11-05T06:49:14Z) - Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。
我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。
0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文 参考訳(メタデータ) (2024-05-12T07:59:46Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment [30.38594416942543]
本稿では,遅延拡散モデル,すなわちDiffAVAに基づく視覚アライメントを用いた,新規でパーソナライズされたテキスト・音声生成手法を提案する。
我々のDiffAVAは、ビデオ特徴から時間情報を集約するマルチヘッドアテンショントランスフォーマーと、テキスト埋め込みで時間的視覚表現を融合するデュアルマルチモーダル残差ネットワークを活用している。
AudioCapsデータセットの実験結果から、提案したDiffAVAは、視覚的に整列したテキスト・オーディオ生成において、競合する性能を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-22T10:37:27Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。