論文の概要: Fine-grained Video Dubbing Duration Alignment with Segment Supervised Preference Optimization
- arxiv url: http://arxiv.org/abs/2508.08550v1
- Date: Tue, 12 Aug 2025 01:38:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.268915
- Title: Fine-grained Video Dubbing Duration Alignment with Segment Supervised Preference Optimization
- Title(参考訳): Segment Supervised Preference Optimization を用いた細粒度ビデオダビング時間アライメント
- Authors: Chaoqun Cui, Liangbin Huang, Shijing Wang, Zhe Tong, Zhaolong Huang, Xiao Zeng, Xiaofeng Liu,
- Abstract要約: ビデオダビングは、ソース言語からターゲット言語への視覚メディアプログラムにおけるオリジナル音声の変換を目的としている。
言語によって異なる情報密度のため、ターゲット音声は元の音声の持続時間と一致しないことが多い。
そこで本研究では,セグメントワイドサンプリング戦略を用いたSegment Supervised Preference Optimization (SSPO)法を提案する。
- 参考スコア(独自算出の注目度): 4.705596004268067
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Video dubbing aims to translate original speech in visual media programs from the source language to the target language, relying on neural machine translation and text-to-speech technologies. Due to varying information densities across languages, target speech often mismatches the source speech duration, causing audio-video synchronization issues that significantly impact viewer experience. In this study, we approach duration alignment in LLM-based video dubbing machine translation as a preference optimization problem. We propose the Segment Supervised Preference Optimization (SSPO) method, which employs a segment-wise sampling strategy and fine-grained loss to mitigate duration mismatches between source and target lines. Experimental results demonstrate that SSPO achieves superior performance in duration alignment tasks.
- Abstract(参考訳): ビデオダビングは、ソース言語からターゲット言語へ、ニューラルマシン翻訳とテキスト音声技術に依存して、ビジュアルメディアプログラムでオリジナルの音声を変換することを目的としている。
言語によって異なる情報密度のため、ターゲット音声は元の音声の持続時間と一致しないことが多く、音声とビデオの同期の問題が視聴者の体験に大きな影響を及ぼす。
本研究では,LLMを用いたビデオダビング機械翻訳における継続時間アライメントを優先最適化問題として提案する。
ソースラインとターゲットライン間の時間的ミスマッチを軽減するために,セグメントワイズサンプリング戦略ときめ細かな損失を利用したSegment Supervised Preference Optimization (SSPO)法を提案する。
実験結果から,SSPOは時間的アライメントタスクにおいて優れた性能を発揮することが示された。
関連論文リスト
- GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval [12.483734449829235]
GAIDは、テキストガイダンスの下でオーディオと視覚機能を統合するフレームワークである。
DASPは、構造を意識した摂動をテキスト埋め込みに注入し、マルチパス推論を発生させることなく、堅牢性と差別性を高める。
MSR-VTT, DiDeMo, LSMDC, VATEXによる実験では, 顕著な効率向上が得られた。
論文 参考訳(メタデータ) (2025-08-03T10:44:24Z) - AVC-DPO: Aligned Video Captioning via Direct Preference Optimization [50.08618093204503]
ビデオマルチモーダル大言語モデル(ビデオMLLM)は,ビデオキャプションタスクにおいて大きな進歩を遂げている。
そこで我々は,ビデオMLLMのキャプション機能を高めるために,AVC-DPO(Designed Video Captioning via Direct Preference Optimization)を提案する。
LOVE@PRCV'25 Workshop Track 1A: Video Detailed Captioning Challengeで、ビデオ詳細キャプションのベンチマークで1位を獲得しました。
論文 参考訳(メタデータ) (2025-07-02T08:51:45Z) - Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - Video-Language Alignment via Spatio-Temporal Graph Transformer [26.109883502401885]
ビデオ言語アライメントは、ビデオテキスト検索や質問応答など、下流の様々なアプリケーションに恩恵をもたらす重要なタスクである。
本研究では,ビデオ言語アライメント事前学習のための空間的・時間的文脈を均一に学習する新しい時空間グラフトランスフォーマモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-16T12:52:32Z) - Jointly Optimizing Translations and Speech Timing to Improve Isochrony
in Automatic Dubbing [71.02335065794384]
生成した翻訳の翻訳時間と発話時間を直接最適化するモデルを提案する。
本システムでは,システムアーキテクチャを簡素化しつつ,前処理よりも発話のタイミングによく適合する音声を生成する。
論文 参考訳(メタデータ) (2023-02-25T04:23:25Z) - VideoDubber: Machine Translation with Speech-Aware Length Control for
Video Dubbing [73.56970726406274]
ビデオダビングは、映画やテレビ番組のオリジナルスピーチをターゲット言語の音声に変換することを目的としている。
翻訳された音声が対応するビデオと適切に一致するようにするためには、翻訳された音声の長さ/順を元の音声にできるだけ近づけるべきである。
本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。
論文 参考訳(メタデータ) (2022-11-30T12:09:40Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。