論文の概要: DANTE-AD: Dual-Vision Attention Network for Long-Term Audio Description
- arxiv url: http://arxiv.org/abs/2503.24096v1
- Date: Mon, 31 Mar 2025 13:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:35:03.336360
- Title: DANTE-AD: Dual-Vision Attention Network for Long-Term Audio Description
- Title(参考訳): DANTE-AD:長期オーディオ記述のためのデュアルビジョンアテンションネットワーク
- Authors: Adrienne Deganutti, Simon Hadfield, Andrew Gilbert,
- Abstract要約: DANTE-ADは、デュアルビジョントランスフォーマーアーキテクチャを利用した拡張ビデオ記述モデルである。
そこで本研究では,音素の微粒な記述生成のためのコンテキストグラウンド化を実現するために,シーケンシャルなクロスアテンションのための新しい最先端手法を提案する。
- 参考スコア(独自算出の注目度): 19.14915136673913
- License:
- Abstract: Audio Description is a narrated commentary designed to aid vision-impaired audiences in perceiving key visual elements in a video. While short-form video understanding has advanced rapidly, a solution for maintaining coherent long-term visual storytelling remains unresolved. Existing methods rely solely on frame-level embeddings, effectively describing object-based content but lacking contextual information across scenes. We introduce DANTE-AD, an enhanced video description model leveraging a dual-vision Transformer-based architecture to address this gap. DANTE-AD sequentially fuses both frame and scene level embeddings to improve long-term contextual understanding. We propose a novel, state-of-the-art method for sequential cross-attention to achieve contextual grounding for fine-grained audio description generation. Evaluated on a broad range of key scenes from well-known movie clips, DANTE-AD outperforms existing methods across traditional NLP metrics and LLM-based evaluations.
- Abstract(参考訳): Audio Descriptionは、視覚障害者がビデオの中の重要な視覚要素を知覚するのを助けるために設計されたナレーション付き注釈である。
短い形態の映像理解は急速に進歩しているが、コヒーレントな長期視覚的ストーリーテリングを維持するための解決策は未解決のままである。
既存の手法はフレームレベルの埋め込みにのみ依存し、オブジェクトベースのコンテンツを効果的に記述するが、シーン間のコンテキスト情報は欠如している。
DANTE-ADは、このギャップに対処するために、デュアルビジョントランスフォーマーベースのアーキテクチャを活用する拡張ビデオ記述モデルである。
DANTE-ADはフレームとシーンレベルの埋め込みを逐次融合し、長期的コンテキスト理解を改善する。
そこで本研究では,音素の微粒な記述生成のためのコンテキストグラウンド化を実現するために,シーケンシャルなクロスアテンションのための新しい最先端手法を提案する。
DANTE-ADは、よく知られた映画のクリップから、幅広い場面で評価され、従来のNLPメトリクスとLCMに基づく評価で、既存の手法よりも優れています。
関連論文リスト
- DistinctAD: Distinctive Audio Description Generation in Contexts [62.58375366359421]
本研究では,より優れた物語を生成するために,特徴性を重視した音声記述を生成するためのフレームワークであるDistinctADを提案する。
ドメインギャップに対処するために、追加のADコーパスを必要としないCLIP-AD適応戦略を導入する。
ステージIIでは、DistinctADは2つの重要なイノベーションを取り入れている: (i) コンテクスト予測最大化注意(EMA)モジュールは、連続するビデオクリップから共通のベースを抽出することで冗長性を低減し、 (ii) コンテキスト内の繰り返し単語をフィルタリングする明確な単語予測損失である。
論文 参考訳(メタデータ) (2024-11-27T09:54:59Z) - VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models [38.429386337415785]
Contrastive Language-Image Pre-Training (CLIP) は広く研究され、多くの応用に応用されている。
事前トレーニング中の短い要約テキストの強調は、CLIPが長い記述を理解することを妨げている。
ビデオCLIPモデルの長文記述理解能力を解き放つことを目的とした,ビデオCLIP-XL (eXtra Length) モデルを提案する。
論文 参考訳(メタデータ) (2024-10-01T14:33:22Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Contextual AD Narration with Interleaved Multimodal Sequence [50.240534605090396]
このタスクは、視覚障害者が映画のような長めのビデオコンテンツにアクセスするのを助けるために、視覚障害者のための視覚要素の記述を作成することを目的としている。
ビデオ機能、テキスト、文字バンク、コンテキスト情報を入力として、生成されたADは名前で文字に対応することができる。
我々は、ADを生成するためのシンプルで統一されたフレームワークを通じて、事前訓練された基礎モデルを活用することを提案する。
論文 参考訳(メタデータ) (2024-03-19T17:27:55Z) - Generating Action-conditioned Prompts for Open-vocabulary Video Action
Recognition [63.95111791861103]
既存の方法は、訓練済みの画像テキストモデルをビデオ領域に適応させるのが一般的である。
我々は、人間の事前知識によるテキスト埋め込みの強化が、オープン語彙のビデオ行動認識の鍵となると論じている。
提案手法は,新たなSOTA性能を設定できるだけでなく,解釈性にも優れる。
論文 参考訳(メタデータ) (2023-12-04T02:31:38Z) - Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。
以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。
具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。
補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文 参考訳(メタデータ) (2023-01-15T02:04:02Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。