Fugu-MT 論文翻訳(概要): Towards Visually-Guided Movie Subtitle Translation for Indic Languages

論文の概要: Towards Visually-Guided Movie Subtitle Translation for Indic Languages

arxiv url: http://arxiv.org/abs/2605.11993v1
Date: Tue, 12 May 2026 11:43:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-13 21:48:56.82791
Title: Towards Visually-Guided Movie Subtitle Translation for Indic Languages
Title（参考訳）: 字幕翻訳をめざして
Authors: Tarun Chintada, Kshetrimayum Boynao Singh, Asif Ekbal,
Abstract要約: 映画の字幕翻訳は本質的にマルチモーダルであるが、テキストのみのシステムは感情、行動、社会的ニュアンスを伝えるのに必要な視覚的手がかりを見逃すことが多い。本稿では,5本のフル長フィルムをケーススタディとして,2つの軽量視覚接地戦略を比較した。
参考スコア（独自算出の注目度）: 29.64914026807588
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Movie subtitle translation is inherently multimodal, yet text-only systems often miss visual cues needed to convey emotion, action, and social nuance, especially for low-resource Indic languages (English to Hindi, Bengali, Telugu, Tamil and Kannada). We present a case study on five full-length films and compare two lightweight visual grounding strategies: structured attribute summaries from a 5-minute sliding window and free-text summaries of inter-subtitle visual gaps. Our analysis shows that temporal misalignment between subtitles and frames is a major obstacle in long-form video, often rendering indiscriminate visual grounding ineffective. However, oracle selective grounding, which replaces only the lowest-quality 20-30\% of baseline segments with visual-enhanced outputs, consistently improves COMET over the text-only baseline while requiring far less visual processing. Among the two approaches, coarse attribute-based visual context summarization is more robust, capturing scene-level emotion and contextual subtle cues that text alone often misses
Abstract（参考訳）: 映画の字幕翻訳は本質的にマルチモーダルであるが、テキストのみのシステムは感情、行動、社会的なニュアンスを伝えるのに必要な視覚的手がかりを見逃すことがしばしばあり、特に低リソースのインド語(ヒンディー語、ベンガル語、テルグ語、タミル語、カンナダ語)ではそうである。本稿では,5分間のスライディングウインドウからの構造化属性要約と字幕間視覚ギャップのフリーテキスト要約の2つの軽量視覚接地戦略を比較した。我々の分析では、字幕とフレームの時間的ずれが長編ビデオの大きな障害であり、しばしば無差別な視覚的接地が効果的でないことが示されている。しかし、低品質の20～30パーセントのベースラインセグメントのみを視覚的に拡張した出力に置き換えるオラクル選択グラウンドは、テキストのみのベースラインよりもCOMETを一貫して改善し、ビジュアル処理をはるかに少なくする。 2つのアプローチの中で、粗い属性に基づく視覚的コンテキストの要約はより堅牢であり、シーンレベルの感情と、テキストだけで見逃すような文脈的な微妙な手がかりをキャプチャする。

関連論文リスト

The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文参考訳（メタデータ） (2025-03-31T03:00:19Z)
MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文参考訳（メタデータ） (2024-06-25T18:39:43Z)
SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval [11.548061962976321]
我々は新しい構文階層強化テキストビデオ検索法(SHE-Net)を提案する。まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いる。第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
論文参考訳（メタデータ） (2024-04-22T10:23:59Z)
Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。 S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2023-03-28T22:45:07Z)
Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文参考訳（メタデータ） (2023-01-18T12:15:47Z)
Watch and Learn: Mapping Language and Noisy Real-world Videos with Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文参考訳（メタデータ） (2020-11-19T03:43:56Z)
Visual Grounding in Video for Unsupervised Word Translation [91.47607488740647]
我々は、言語間の教師なし単語マッピングを改善するために、視覚的接地を用いる。ネイティブ言語でナレーションされた無人の教育ビデオから埋め込みを学習する。これらの手法を英語からフランス語、韓国語、日本語への翻訳に適用する。
論文参考訳（メタデータ） (2020-03-11T02:03:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。