論文の概要: Video-guided Machine Translation with Global Video Context
- arxiv url: http://arxiv.org/abs/2604.06789v1
- Date: Wed, 08 Apr 2026 07:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.413797
- Title: Video-guided Machine Translation with Global Video Context
- Title(参考訳): グローバルビデオコンテキストを用いた動画誘導機械翻訳
- Authors: Jian Chen, JinZe Lv, Zi Long, XiangHua Fu,
- Abstract要約: 長編ビデオにおけるグローバルな物語コンテキストを捉えるために,グローバルなビデオ誘導型マルチモーダル翻訳フレームワークを提案する。
注目メカニズムは、映像の特徴を保ちながら、高度に関連性の高い視覚コンテンツに焦点を当てる。
大規模文書翻訳データセットの実験により,本手法がベースラインモデルを大幅に上回ることを示した。
- 参考スコア(独自算出の注目度): 4.074619388936337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-guided Multimodal Translation (VMT) has advanced significantly in recent years. However, most existing methods rely on locally aligned video segments paired one-to-one with subtitles, limiting their ability to capture global narrative context across multiple segments in long videos. To overcome this limitation, we propose a globally video-guided multimodal translation framework that leverages a pretrained semantic encoder and vector database-based subtitle retrieval to construct a context set of video segments closely related to the target subtitle semantics. An attention mechanism is employed to focus on highly relevant visual content, while preserving the remaining video features to retain broader contextual information. Furthermore, we design a region-aware cross-modal attention mechanism to enhance semantic alignment during translation. Experiments on a large-scale documentary translation dataset demonstrate that our method significantly outperforms baseline models, highlighting its effectiveness in long-video scenarios.
- Abstract(参考訳): 近年,ビデオ誘導型マルチモーダル翻訳 (VMT) が著しく進歩している。
しかし、既存のほとんどの手法は、局所的に一対一の動画セグメントと字幕を組合わせたビデオセグメントに依存しており、長いビデオの複数のセグメントでグローバルな物語コンテキストをキャプチャする能力を制限している。
この制限を克服するために、予め訓練されたセマンティックエンコーダとベクトルデータベースに基づくサブタイトル検索を利用して、ターゲットのサブタイトルセマンティクスと密接に関連するビデオセグメントのコンテキストセットを構築する、グローバルなビデオ誘導型マルチモーダル翻訳フレームワークを提案する。
注目メカニズムは、より広い文脈情報を保持するために残りの映像特徴を保存しながら、高度に関連性の高い視覚コンテンツに焦点を当てる。
さらに,翻訳中のセマンティックアライメントを強化するため,地域対応型クロスモーダルアテンション機構を設計する。
大規模文書翻訳データセットの実験では,提案手法がベースラインモデルを大幅に上回っており,長ビデオシナリオにおける有効性を強調している。
関連論文リスト
- HierSum: A Global and Local Attention Mechanism for Video Summarization [14.88934924520362]
本稿では,指導ビデオの要約に焦点をあて,映像を意味のあるセグメントに分割する方法を提案する。
HierSumは、サブタイトルからのきめ細かいローカルキューと、ビデオレベルの命令によって提供されるグローバルなコンテキスト情報を統合する。
我々は,HierSumがF1スコアやランク相関などの重要な指標において,既存の手法を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-04-25T20:30:30Z) - Video Summarization with Large Language Models [41.51242348081083]
本稿では,近年のLarge Language Models (LLM) の機能を活用したビデオ要約フレームワークを提案する。
LLM-based Video Summarization (LLMVS) と呼ばれる我々の手法は、ビデオフレームをMulti-Modal Large Language Model (MLLM) を用いて一連のキャプションに変換する。
実験の結果,提案手法は標準ベンチマークにおける既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-15T13:56:14Z) - Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain
Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。
ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。
提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-11-30T21:59:05Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。