論文の概要: DoCIA: An Online Document-Level Context Incorporation Agent for Speech Translation
- arxiv url: http://arxiv.org/abs/2504.05122v1
- Date: Mon, 07 Apr 2025 14:26:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:12:30.353266
- Title: DoCIA: An Online Document-Level Context Incorporation Agent for Speech Translation
- Title(参考訳): DoCIA: 音声翻訳のためのオンライン文書レベルコンテキスト取り込みエージェント
- Authors: Xinglin Lyu, Wei Tang, Yuang Li, Xiaofeng Zhao, Ming Zhu, Junhui Li, Yunfei Lu, Min Zhang, Daimeng Wei, Hao Yang, Min Zhang,
- Abstract要約: 文書レベル機械翻訳(MT)における談話課題の処理には文書レベルコンテキストが不可欠である
文書レベルのコンテキストを組み込むことでSTパフォーマンスを向上させるオンラインフレームワークであるDoCIAを開発した。
実験の結果,DoCIAは文と談話の指標において従来のST基準よりも有意に優れていた。
- 参考スコア(独自算出の注目度): 33.61516131117661
- License:
- Abstract: Document-level context is crucial for handling discourse challenges in text-to-text document-level machine translation (MT). Despite the increased discourse challenges introduced by noise from automatic speech recognition (ASR), the integration of document-level context in speech translation (ST) remains insufficiently explored. In this paper, we develop DoCIA, an online framework that enhances ST performance by incorporating document-level context. DoCIA decomposes the ST pipeline into four stages. Document-level context is integrated into the ASR refinement, MT, and MT refinement stages through auxiliary LLM (large language model)-based modules. Furthermore, DoCIA leverages document-level information in a multi-level manner while minimizing computational overhead. Additionally, a simple yet effective determination mechanism is introduced to prevent hallucinations from excessive refinement, ensuring the reliability of the final results. Experimental results show that DoCIA significantly outperforms traditional ST baselines in both sentence and discourse metrics across four LLMs, demonstrating its effectiveness in improving ST performance.
- Abstract(参考訳): 文書レベルの文脈は、テキストからテキストへの文書レベルの機械翻訳(MT)における会話の課題を扱うために重要である。
音声認識(ASR)による雑音による談話課題の増加にもかかわらず、音声翻訳(ST)における文書レベルの文脈の統合はいまだに不十分である。
本稿では,文書レベルのコンテキストを組み込むことでST性能を向上させるオンラインフレームワークであるDoCIAを開発する。
DoCIAはSTパイプラインを4段階に分割する。
文書レベルのコンテキストは、補助的なLLM(大規模言語モデル)ベースのモジュールを通じて、ASRリファインメント、MT、MTリファインメントステージに統合される。
さらに、DoCIAは計算オーバーヘッドを最小限に抑えつつ、文書レベルの情報を多段階的に活用する。
さらに、幻覚の過剰な改善を防ぎ、最終的な結果の信頼性を確保するため、単純で効果的な決定機構が導入された。
実験の結果,DoCIAは4つのLLMの文と談話の指標において従来のSTベースラインを有意に上回り,ST性能を向上させる効果を示した。
関連論文リスト
- Speech Translation Refinement using Large Language Models [8.602429274223693]
本稿では,大規模言語モデル(LLM)が,共同改良プロセスを導入することにより,音声翻訳の性能を向上する方法について検討する。
LLMによる音声翻訳(ST)と自動音声認識(ASR)の併用により,STモデルの性能は大幅に向上した。
7つの翻訳タスクを含む MuST-C と CoVoST 2 データセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-01-25T05:32:42Z) - Context-aware and Style-related Incremental Decoding framework for Discourse-Level Literary Translation [9.823430236885896]
文学テキストの翻訳は、ニュアンス的な意味、慣用的な表現、複雑な物語構造のために大きな課題を生んでいる。
これらの課題に対処するために、我々はCPT(Continuous Pre-Training)とSFT(Supervised Fine-Tuning)を組み合わせた中国語-Llama2モデルを利用した。
提案手法は,各文がより広い文脈で翻訳されることを保証する新しいインクリメンタル・デコーディング・フレームワークを含む。
論文 参考訳(メタデータ) (2024-09-25T01:27:24Z) - Enhancing Document-level Argument Extraction with Definition-augmented Heuristic-driven Prompting for LLMs [0.0]
イベント引数抽出(EAE)は、構造化されていないテキストから構造化された情報を抽出するための重要な手段である。
本研究では,文書レベルEAEにおけるLarge Language Models (LLMs) の性能向上を目的とした定義拡張ヒューリスティック・プロンプト(DHP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T19:03:14Z) - Recording for Eyes, Not Echoing to Ears: Contextualized Spoken-to-Written Conversion of ASR Transcripts [19.02690795530784]
本研究では,ASRと文法の誤りに対処する文脈対応型スポンケン・トゥ・ブリッテン変換(CoS2W)タスクを提案する。
このタスクは、Large Language Models(LLM)のコンテキスト内学習機能と自然に一致する。
論文 参考訳(メタデータ) (2024-08-19T03:53:48Z) - Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。
本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。
オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文 参考訳(メタデータ) (2024-06-16T20:41:44Z) - Efficiently Exploring Large Language Models for Document-Level Machine Translation with In-context Learning [38.89119606657543]
文レベルの翻訳とは対照的に、文脈内学習に基づく大規模言語モデル(LLM)による文書レベルの翻訳(DOCMT)は2つの大きな課題に直面している。
本研究では,文脈認識型プロンプト法(CAP)を提案する。
様々なDOCMTタスクに対して広範な実験を行い,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-06-11T09:11:17Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Document-level Neural Machine Translation with Document Embeddings [82.4684444847092]
この研究は、複数の形式の文書埋め込みの観点から、詳細な文書レベルのコンテキストを活用することに重点を置いている。
提案する文書認識NMTは,大域的および局所的な文書レベルの手がかりをソース端に導入することにより,Transformerベースラインを強化するために実装されている。
論文 参考訳(メタデータ) (2020-09-16T19:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。