論文の概要: More than a Moment: Towards Coherent Sequences of Audio Descriptions
- arxiv url: http://arxiv.org/abs/2510.25440v1
- Date: Wed, 29 Oct 2025 12:06:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.496489
- Title: More than a Moment: Towards Coherent Sequences of Audio Descriptions
- Title(参考訳): モーメント以上:音声記述のコヒーレントなシーケンスを目指して
- Authors: Eshika Khandelwal, Junyu Xie, Tengda Han, Max Bain, Arsha Nagrani, Andrew Zisserman, Gül Varol, Makarand Tapaswi,
- Abstract要約: オーディオ記述(AD)は、視覚障害者が動画をフォローできるように、スクリーン上の必須情報を伝える。
ほとんどの自動手法はそれぞれのADを独立に生成し、しばしば反復的で一貫性のない記述をもたらす。
本稿では、まずAD間隔毎に複数の候補記述を生成し、次にシーケンス間で自動回帰選択を行う、トレーニング不要な方法であるCoherentADを提案する。
- 参考スコア(独自算出の注目度): 88.14731697642098
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio Descriptions (ADs) convey essential on-screen information, allowing visually impaired audiences to follow videos. To be effective, ADs must form a coherent sequence that helps listeners to visualise the unfolding scene, rather than describing isolated moments. However, most automatic methods generate each AD independently, often resulting in repetitive, incoherent descriptions. To address this, we propose a training-free method, CoherentAD, that first generates multiple candidate descriptions for each AD time interval, and then performs auto-regressive selection across the sequence to form a coherent and informative narrative. To evaluate AD sequences holistically, we introduce a sequence-level metric, StoryRecall, which measures how well the predicted ADs convey the ground truth narrative, alongside repetition metrics that capture the redundancy across consecutive AD outputs. Our method produces coherent AD sequences with enhanced narrative understanding, outperforming prior approaches that rely on independent generations.
- Abstract(参考訳): オーディオ記述(AD)は、視覚障害者が動画をフォローできるように、スクリーン上の必須情報を伝える。
効果的にするためには、ADは、孤立した瞬間を記述するのではなく、リスナーが展開シーンを可視化するのを助けるコヒーレントなシーケンスを形成する必要がある。
しかしながら、ほとんどの自動手法はそれぞれのADを独立に生成し、しばしば反復的で一貫性のない記述をもたらす。
そこで本研究では,まずAD時間間隔毎に複数の候補記述を生成し,次にシーケンス間で自動回帰選択を行い,一貫性のある情報的物語を形成する,訓練不要な手法であるCoherentADを提案する。
提案手法では, 連続するAD出力の冗長性を捉える反復的指標とともに, 予測されたADが真実の物語をいかにうまく伝達するかを計測する。
本手法は,独立世代に依存した先行アプローチよりも優れた,物語理解の充実したコヒーレントADシーケンスを生成する。
関連論文リスト
- What You See is What You Ask: Evaluating Audio Descriptions [27.76958202277314]
数分間のコヒーレントなビデオセグメントでADを評価するQAベンチマークであるADQAを提案する。
現在のAD生成手法は、人間が作成したADよりもはるかに遅れていることを示す。
論文 参考訳(メタデータ) (2025-10-01T12:14:15Z) - Shot-by-Shot: Film-Grammar-Aware Training-Free Audio Description Generation [110.79299467093006]
ビデオ理解の基本単位として「ショット」を活用する2段階フレームワークを提案する。
これには、隣接するショットへの時間的コンテキストの拡張や、ショットスケールやスレッド構造などのフィルム文法装置の導入が含まれる。
我々の手法は、オープンソースとプロプライエタリなVisual-Language Modelsの両方と互換性がある。
論文 参考訳(メタデータ) (2025-04-01T17:59:57Z) - DistinctAD: Distinctive Audio Description Generation in Contexts [62.58375366359421]
本研究では,より優れた物語を生成するために,特徴性を重視した音声記述を生成するためのフレームワークであるDistinctADを提案する。
ドメインギャップに対処するために、追加のADコーパスを必要としないCLIP-AD適応戦略を導入する。
ステージIIでは、DistinctADは2つの重要なイノベーションを取り入れている: (i) コンテクスト予測最大化注意(EMA)モジュールは、連続するビデオクリップから共通のベースを抽出することで冗長性を低減し、 (ii) コンテキスト内の繰り返し単語をフィルタリングする明確な単語予測損失である。
論文 参考訳(メタデータ) (2024-11-27T09:54:59Z) - LLM-AD: Large Language Model based Audio Description System [5.319096768490139]
本稿では,GPT-4V(ision)の強力なマルチモーダルおよび命令追従能力を利用する自動AD生成パイプラインを提案する。
確立された自然言語AD生産標準に準拠したADを生成し、フレーム間でコンテキスト的に一貫した文字情報を維持する。
CIDErスコアが20.5であるように,MADデータセットの徹底的な解析により,自動AD生産における学習に基づく手法と同等の性能が得られた。
論文 参考訳(メタデータ) (2024-05-02T03:38:58Z) - Contextual AD Narration with Interleaved Multimodal Sequence [50.240534605090396]
このタスクは、視覚障害者が映画のような長めのビデオコンテンツにアクセスするのを助けるために、視覚障害者のための視覚要素の記述を作成することを目的としている。
ビデオ機能、テキスト、文字バンク、コンテキスト情報を入力として、生成されたADは名前で文字に対応することができる。
我々は、ADを生成するためのシンプルで統一されたフレームワークを通じて、事前訓練された基礎モデルを活用することを提案する。
論文 参考訳(メタデータ) (2024-03-19T17:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。