論文の概要: Hermes the Polyglot: A Unified Framework to Enhance Expressiveness for Multimodal Interlingual Subtitling
- arxiv url: http://arxiv.org/abs/2602.00597v1
- Date: Sat, 31 Jan 2026 08:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.280448
- Title: Hermes the Polyglot: A Unified Framework to Enhance Expressiveness for Multimodal Interlingual Subtitling
- Title(参考訳): Hermes the Polyglot:マルチモーダル言語間置換のための表現性を高める統一フレームワーク
- Authors: Chaoqun Cui, Shijing Wang, Liangbin Huang, Qingqing Gu, Zhaolong Huang, Xiao Zeng, Wenji Mao,
- Abstract要約: 言語間置換は、視覚メディアの字幕を対象言語に変換する。
Hermesは大規模言語モデルに基づく自動置換フレームワークである。
Hermesは最先端のダイアリゼーション性能を達成し、表現的かつ文脈的に一貫性のある翻訳を生成する。
- 参考スコア(独自算出の注目度): 12.547838537411215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interlingual subtitling, which translates subtitles of visual media into a target language, is essential for entertainment localization but has not yet been explored in machine translation. Although Large Language Models (LLMs) have significantly advanced the general capabilities of machine translation, the distinctive characteristics of subtitle texts pose persistent challenges in interlingual subtitling, particularly regarding semantic coherence, pronoun and terminology translation, and translation expressiveness. To address these issues, we present Hermes, an LLM-based automated subtitling framework. Hermes integrates three modules: Speaker Diarization, Terminology Identification, and Expressiveness Enhancement, which effectively tackle the above challenges. Experiments demonstrate that Hermes achieves state-of-the-art diarization performance and generates expressive, contextually coherent translations, thereby advancing research in interlingual subtitling.
- Abstract(参考訳): 視覚メディアの字幕をターゲット言語に翻訳する言語間サブタイリングはエンタテイメントのローカライゼーションには不可欠であるが,まだ機械翻訳では研究されていない。
大言語モデル(LLM)は機械翻訳の一般的な能力を大幅に向上させたが、字幕テキストの特徴は、特に意味的コヒーレンス、代名詞と用語の翻訳、翻訳表現性に関して、言語間置換において永続的な課題をもたらす。
これらの問題に対処するため、LLMベースの自動置換フレームワークであるHermesを紹介した。
Hermesは、話者ダイアリゼーション、ターミノロジー同定、表現力向上という3つのモジュールを統合し、上記の課題に効果的に取り組む。
実験により、Hermesは最先端のダイアリゼーション性能を達成し、表現的かつ文脈的に一貫性のある翻訳を生成し、言語間置換の研究を進めることが示されている。
関連論文リスト
- Liaozhai through the Looking-Glass: On Paratextual Explicitation of Culture-Bound Terms in Machine Translation [70.43884512651668]
我々は、文学・翻訳研究からジェネットのパラテキスト論(1987年)を定式化し、機械翻訳におけるパラテキスト明示の課題を紹介した。
古典中国語の短編集集Liaozhaiの4つの英訳から560の専門家対応パラテキストのデータセットを構築した。
本研究は,言語的等価性を超えた機械翻訳におけるパラテクスト的明示の可能性を示すものである。
論文 参考訳(メタデータ) (2025-09-27T16:27:36Z) - PART: Progressive Alignment Representation Training for Multilingual Speech-To-Text with LLMs [58.2469845374385]
進歩的アライメント表現訓練(PART)について紹介する。
Partは多段階およびマルチタスクのフレームワークで、言語内のアライメントと言語間のアライメントを分離する。
CommonVoice 15の実験では、Fleurs、Wenetspeech、CoVoST2が、Particleが従来のアプローチを上回ることを示している。
論文 参考訳(メタデータ) (2025-09-24T03:54:14Z) - Towards Explainable Bilingual Multimodal Misinformation Detection and Localization [64.37162720126194]
BiMiは、地域レベルのローカライゼーション、言語間および言語間整合性検出、誤情報解析のための自然言語説明を共同で行うフレームワークである。
BiMiBenchは、実際のニュース画像とサブタイトルを体系的に編集するベンチマークである。
BiMiは、分類精度が+8.9で、ローカライゼーション精度が+15.9で、BERTScoreを+2.5で上回る。
論文 参考訳(メタデータ) (2025-06-28T15:43:06Z) - Gloss2Text: Sign Language Gloss translation using LLMs and Semantically Aware Label Smoothing [21.183453511034767]
本稿では,事前学習された大言語モデル(LLM),データ拡張,ラベルの平滑化損失関数を活用することで,いくつかの進歩を提案する。
提案手法は,Em Gloss2Text翻訳における最先端性能を上回る。
論文 参考訳(メタデータ) (2024-07-01T15:46:45Z) - Enhancing expressivity transfer in textless speech-to-speech translation [0.0]
既存の最先端システムは、様々な言語で正確に表現力の取得と転送に関して不足している。
本研究では,個別音声単位レベルで動作し,多言語感情の埋め込みを利用する新しい手法を提案する。
対象言語における音声単位のピッチと持続時間を効果的に予測するために,これらの埋め込みがどのように使用できるかを示す。
論文 参考訳(メタデータ) (2023-10-11T08:07:22Z) - LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine
Translation [94.33019040320507]
マルチモーダル機械翻訳(MMT)は、視覚的特徴を持つテキストのみの翻訳を強化することに焦点を当てている。
最近の進歩は、各言語ペアごとに別々のモデルをトレーニングすることに苦慮している。
7つの言語をカバーする2つのMultilingual MMTベンチマークデータセットを確立することで,Multilingual MMTタスクを提案する。
論文 参考訳(メタデータ) (2022-10-19T12:21:39Z) - Revamping Multilingual Agreement Bidirectionally via Switched
Back-translation for Multilingual Neural Machine Translation [107.83158521848372]
マルチリンガル・コンセンサス(MA)は、マルチリンガル・ニューラル・マシン翻訳(MNMT)の重要性を示した
textbfBidirectional textbfMultilingual textbfAgreement via textbfSwitched textbfBack-textbftranslation (textbfBMA-SBT)
これは、訓練済みのMNMTモデルを微調整するための、新規で普遍的な多言語合意フレームワークである。
論文 参考訳(メタデータ) (2022-09-28T09:14:58Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。