論文の概要: ViDove: A Translation Agent System with Multimodal Context and Memory-Augmented Reasoning
- arxiv url: http://arxiv.org/abs/2507.07306v1
- Date: Wed, 09 Jul 2025 22:05:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.217191
- Title: ViDove: A Translation Agent System with Multimodal Context and Memory-Augmented Reasoning
- Title(参考訳): ViDove:マルチモーダルコンテキストとメモリ拡張推論を用いた翻訳エージェントシステム
- Authors: Yichen Lu, Wei Dai, Jiaen Liu, Ching Wing Kwok, Zongheng Wu, Xudong Xiao, Ao Sun, Sheng Fu, Jianyuan Zhan, Yian Wang, Takatomo Saito, Sicheng Lai,
- Abstract要約: ViDoveはマルチモーダル入力用に設計された翻訳エージェントシステムである。
長文自動サブタイリングと翻訳のための新しいベンチマークであるDoveBenchを紹介する。
- 参考スコア(独自算出の注目度): 5.544427667851464
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLM-based translation agents have achieved highly human-like translation results and are capable of handling longer and more complex contexts with greater efficiency. However, they are typically limited to text-only inputs. In this paper, we introduce ViDove, a translation agent system designed for multimodal input. Inspired by the workflow of human translators, ViDove leverages visual and contextual background information to enhance the translation process. Additionally, we integrate a multimodal memory system and long-short term memory modules enriched with domain-specific knowledge, enabling the agent to perform more accurately and adaptively in real-world scenarios. As a result, ViDove achieves significantly higher translation quality in both subtitle generation and general translation tasks, with a 28% improvement in BLEU scores and a 15% improvement in SubER compared to previous state-of-the-art baselines. Moreover, we introduce DoveBench, a new benchmark for long-form automatic video subtitling and translation, featuring 17 hours of high-quality, human-annotated data. Our code is available here: https://github.com/pigeonai-org/ViDove
- Abstract(参考訳): LLMベースの翻訳エージェントは、高い人間的な翻訳結果を達成し、より長い複雑なコンテキストをより効率的に処理することができる。
しかし、通常はテキストのみの入力に限られる。
本稿では,マルチモーダル入力用に設計された翻訳エージェントであるViDoveを紹介する。
人間の翻訳者のワークフローにインスパイアされたViDoveは、視覚的および文脈的背景情報を活用して翻訳プロセスを強化する。
さらに,ドメイン固有知識に富んだマルチモーダルメモリシステムと長期記憶モジュールを統合し,実世界のシナリオにおいてエージェントがより正確かつ適応的に実行できるようにする。
その結果、ViDoveはサブタイトル生成と一般的な翻訳タスクの両方で翻訳品質が大幅に向上し、BLEUスコアは28%、SubERは15%向上した。
さらに,17時間の高品質な人間注釈付きデータを特徴とする長文自動字幕翻訳のための新しいベンチマークであるDoveBenchを紹介した。
私たちのコードはここにある。 https://github.com/pigeonai-org/ViDove
関連論文リスト
- Multilingual Contextualization of Large Language Models for Document-Level Machine Translation [30.005159724115824]
大規模言語モデル (LLM) は文レベルの機械翻訳において高い性能を示している。
高品質な文書レベルのデータを対象とした微調整により,LLMに基づく長期文書翻訳を改善する手法を提案する。
提案手法は,文書から文書への直接翻訳やチャンクレベルの翻訳など,複数の翻訳パラダイムをサポートする。
論文 参考訳(メタデータ) (2025-04-16T14:52:22Z) - (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [56.7988577327046]
翻訳企業の役割と協調の実践をシミュレートする,新しいマルチエージェントフレームワークであるTransAgentsを紹介する。
本研究は,翻訳品質の向上,特にテキストの長文化におけるマルチエージェント協調の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - Contextual Refinement of Translations: Large Language Models for Sentence and Document-Level Post-Editing [12.843274390224853]
大規模言語モデル(LLM)は、様々な自然言語処理タスクでかなりの成功を収めている。
ニューラルネットワーク翻訳における最先端性能は,まだ達成できていない。
直接翻訳者ではなく,自動編集者 (APE) としてLLMを適用することを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:22:15Z) - Exploring Human-Like Translation Strategy with Large Language Models [93.49333173279508]
大規模言語モデル(LLM)は、一般的なシナリオにおいて印象的な機能を示している。
本研究は,マルチアスペクト・プロンプトと選択のためのMAPSフレームワークを提案する。
品質推定に基づく選択機構を用いて,ノイズや不ヘッピーな知識を抽出する。
論文 参考訳(メタデータ) (2023-05-06T19:03:12Z) - Modeling Context With Linear Attention for Scalable Document-Level
Translation [72.41955536834702]
本稿では,近年の文書翻訳における線形アテンションモデルの有効性について検討し,直流帰納バイアスを促進するためにセンデンシャルゲートで拡張する。
感性ゲーティングはIWSLTの翻訳品質をさらに向上させることを示す。
論文 参考訳(メタデータ) (2022-10-16T03:41:50Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - ViTA: Visual-Linguistic Translation by Aligning Object Tags [7.817598216459955]
マルチモーダル機械翻訳(Multimodal Machine Translation、MMT)は、翻訳のための視覚情報でソーステキストを豊かにする。
本稿では,WAT 2021の多モーダル翻訳タスクを英語からヒンディー語に翻訳するシステムを提案する。
論文 参考訳(メタデータ) (2021-06-01T06:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。