論文の概要: Locate-and-Focus: Enhancing Terminology Translation in Speech Language Models
- arxiv url: http://arxiv.org/abs/2507.18263v1
- Date: Thu, 24 Jul 2025 10:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.347934
- Title: Locate-and-Focus: Enhancing Terminology Translation in Speech Language Models
- Title(参考訳): Locate-and-Focus: 言語モデルにおける用語翻訳の強化
- Authors: Suhang Wu, Jialong Tang, Chengyi Yang, Pei Zhang, Baosong Yang, Junhui Li, Junfeng Yao, Min Zhang, Jinsong Su,
- Abstract要約: 近年, 直接音声翻訳 (ST) が注目されているが, 発話中の用語の正確な翻訳は依然として大きな課題である。
用語翻訳のための新しいLocate-and-Focus法を提案する。
まず、発話内に用語を含む音声クリップを効果的に配置し、STモデルの無関係情報を最小化する。
- 参考スコア(独自算出の注目度): 49.341876205074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct speech translation (ST) has garnered increasing attention nowadays, yet the accurate translation of terminology within utterances remains a great challenge. In this regard, current studies mainly concentrate on leveraging various translation knowledge into ST models. However, these methods often struggle with interference from irrelevant noise and can not fully utilize the translation knowledge. To address these issues, in this paper, we propose a novel Locate-and-Focus method for terminology translation. It first effectively locates the speech clips containing terminologies within the utterance to construct translation knowledge, minimizing irrelevant information for the ST model. Subsequently, it associates the translation knowledge with the utterance and hypothesis from both audio and textual modalities, allowing the ST model to better focus on translation knowledge during translation. Experimental results across various datasets demonstrate that our method effectively locates terminologies within utterances and enhances the success rate of terminology translation, while maintaining robust general translation performance.
- Abstract(参考訳): 近年, 直接音声翻訳 (ST) が注目されているが, 発話中の用語の正確な翻訳は依然として大きな課題である。
この点に関して、最近の研究は主に様々な翻訳知識をSTモデルに活用することに集中している。
しかし、これらの手法は、無関係な雑音からの干渉に苦しむことが多く、翻訳知識を十分に活用できない。
本稿では,これらの問題に対処するため,用語翻訳のための新しいLocate-and-Focus法を提案する。
まず、発話内に用語を含む音声クリップを効果的に配置し、STモデルの無関係情報を最小化する。
その後、翻訳知識と音声とテキストの両方のモダリティからの発話と仮説を関連付け、STモデルは翻訳中に翻訳知識にもっと焦点を合わせることができる。
各種データセットを対象とした実験結果から,提案手法は発話中の用語を効果的に検出し,文節翻訳の成功率を高めるとともに,文節翻訳性能の安定を保ちつつも,文節翻訳の成功率を高めることが示唆された。
関連論文リスト
- A Unit-based System and Dataset for Expressive Direct Speech-to-Speech Translation [38.88908101517807]
本研究は,様々な映画の音声トラックから,新しい,注意深くキュレートされた多言語データセットについて紹介する。
各データセットペアは、パラ言語情報と持続時間に正確にマッチする。
我々は、複数の韻律伝達技術を統合することでこれを強化し、正確で自然な響きがあり、パラ言語的詳細に富む翻訳を目指しています。
論文 参考訳(メタデータ) (2025-02-01T09:24:32Z) - Efficient Technical Term Translation: A Knowledge Distillation Approach for Parenthetical Terminology Translation [0.0]
本稿では,専門分野におけるコミュニケーションの明確化に不可欠である専門用語を正確に翻訳することの課題に対処する。
本研究は, ペアレンテティカル・ターミノロジー・トランスフォーメーション (PTT) タスクを導入し, ペアレンテティカル・ターミノロジー・トランスフォーメーション(PTT)タスクの翻訳とともに, ペアレンテティカル・ターミノロジー・トランスフォーメーション(Parenthetical Terminology Translation, PTT)タスクを導入した。
そこで我々は,単語の全体的な翻訳精度と正しい括弧表現の両方を評価するための新しい評価指標を開発した。
論文 参考訳(メタデータ) (2024-10-01T13:40:28Z) - Mitigating Translationese in Low-resource Languages: The Storyboard Approach [9.676710061071809]
本稿では,より流動的で自然な文を引き出すために,ストーリーボードを活用した新しいデータ収集手法を提案する。
提案手法では,視覚刺激のあるネイティブ話者をストーリーボード形式で提示し,その記述を原文に直接露出することなく収集する。
従来のテキスト翻訳手法とストーリーボードによるアプローチを,精度と流布率の観点から総合評価した。
論文 参考訳(メタデータ) (2024-07-14T10:47:03Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - Towards Debiasing Translation Artifacts [15.991970288297443]
確立されたバイアス除去手法を拡張して,翻訳文の削減のための新しい手法を提案する。
我々は、反復的ヌル空間投影(INLP)アルゴリズムを用いて、デバイアス前後の分類精度を計測することにより、文レベルと単語レベルの両方で翻訳文が削減されることを示す。
我々の知る限りでは、これは潜伏埋め込み空間で表現される翻訳語をデビアスする最初の研究である。
論文 参考訳(メタデータ) (2022-05-16T21:46:51Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Time-Aware Ancient Chinese Text Translation and Inference [6.787414471399024]
我々は、古代漢文の翻訳をめぐる課題に対処することを目指している。
時代の違いによる言語的なギャップは、質の悪い翻訳をもたらす。
ほとんどの翻訳は、しばしばテキストを理解するのに非常に重要な文脈情報を欠いている。
論文 参考訳(メタデータ) (2021-07-07T12:23:52Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。