論文の概要: Streaming Translation and Transcription Through Speech-to-Text Causal Alignment
- arxiv url: http://arxiv.org/abs/2603.11578v1
- Date: Thu, 12 Mar 2026 06:08:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.921561
- Title: Streaming Translation and Transcription Through Speech-to-Text Causal Alignment
- Title(参考訳): 音声とテキストの因果アライメントによるストリーム翻訳と転写
- Authors: Roman Koshkin, Jeon Haesung, Lianbo Liu, Hao Shi, Mengjie Zhao, Yusuke Fujita, Yui Sudo,
- Abstract要約: Hikariはポリシーフリーで、完全にエンドツーエンドのモデルで、音声からテキストへの変換とストリーミングの同時実行を行う。
Decoder Time Dilationは、自己回帰的オーバーヘッドを低減し、バランスの取れたトレーニング分布を保証するメカニズムである。
- 参考スコア(独自算出の注目度): 29.48305878647668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simultaneous machine translation (SiMT) has traditionally relied on offline machine translation models coupled with human-engineered heuristics or learned policies. We propose Hikari, a policy-free, fully end-to-end model that performs simultaneous speech-to-text translation and streaming transcription by encoding READ/WRITE decisions into a probabilistic WAIT token mechanism. We also introduce Decoder Time Dilation, a mechanism that reduces autoregressive overhead and ensures a balanced training distribution. Additionally, we present a supervised fine-tuning strategy that trains the model to recover from delays, significantly improving the quality-latency trade-off. Evaluated on English-to-Japanese, German, and Russian, Hikari achieves new state-of-the-art BLEU scores in both low- and high-latency regimes, outperforming recent baselines.
- Abstract(参考訳): 同時機械翻訳(SiMT)は伝統的に、人間の工学的ヒューリスティックや学習ポリシーと組み合わせたオフライン機械翻訳モデルに依存してきた。
本稿では,READ/WRITE決定を確率的WAITトークン機構に符号化することで,音声とテキストの同時翻訳とストリーミングの書き起こしを行う,ポリシーフリーで完全なエンドツーエンドモデルであるHikariを提案する。
また、自動回帰オーバーヘッドを低減し、バランスの取れたトレーニング分布を保証するメカニズムであるDecoder Time Dilationを導入します。
さらに,遅延からのモデル回復を訓練し,品質とレイテンシのトレードオフを大幅に改善する教師付き微調整戦略を提案する。
英語と日本語、ドイツ語、ロシア語で評価されたヒカリは、低レイテンシと高レイテンシの両方で最先端のBLEUスコアを達成し、近年のベースラインを上回っている。
関連論文リスト
- Finding the Translation Switch: Discovering and Exploiting the Task-Initiation Features in LLMs [69.28193153685893]
大きな言語モデル(LLM)は、タスク固有の微調整なしでも、しばしば強力な翻訳能力を示す。
このプロセスをデミスティフィケートするために、スパースオートエンコーダ(SAE)を活用し、タスク固有の特徴を特定するための新しいフレームワークを導入する。
我々の研究は、LLMの翻訳機構のコアコンポーネントをデコードするだけでなく、内部モデル機構を使用してより堅牢で効率的なモデルを作成するための青写真も提供しています。
論文 参考訳(メタデータ) (2026-01-16T06:29:07Z) - Redefining Machine Simultaneous Interpretation: From Incremental Translation to Human-Like Strategies [6.010207559477024]
同時機械翻訳(SiMT)は、厳密なリアルタイム制約の下で高品質な翻訳を必要とする。
我々は,SiMTのアクション空間を,Sentence_Cut,Drop,Partial_Summarization,Pronominalizationの4つの適応アクションで拡張する。
我々は、これらのアクションを大規模言語モデル(LLM)フレームワークに適応させ、アクション認識プロンプトを通じてトレーニング参照を構築する。
論文 参考訳(メタデータ) (2026-01-16T05:26:16Z) - Redefining Machine Simultaneous Interpretation: From Incremental Translation to Human-Like Strategies [4.487634497356904]
同時機械翻訳(SiMT)は、厳密なリアルタイム制約の下で高品質な翻訳を必要とする。
我々は,Sentence_CUT,DROP,Partial_MARIZATION,PronoMINALZATIONの4つの適応アクションでSiMTのアクション空間を拡張した。
我々は、これらのアクションをデコーダのみの大規模言語モデル(LLM)フレームワークで実装し、アクション認識プロンプトを通じてトレーニング参照を構築する。
論文 参考訳(メタデータ) (2025-09-26T02:57:36Z) - REINA: Regularized Entropy Information-Based Loss for Efficient Simultaneous Speech Translation [3.230443390004258]
同時音声翻訳(SimulST)システムは、翻訳されたテキストや音声を同時に出力しながら音声でストリームする。
私たちは、このトレードオフを最適化するための戦略を導入します。
正規化エントロピー情報適応(Regularized Entropy Information Adaptation, REINA)を提案する。
論文 参考訳(メタデータ) (2025-08-07T00:25:58Z) - High-Fidelity Simultaneous Speech-To-Speech Translation [75.69884829562591]
本稿では,同時音声翻訳のためのデコーダのみのモデルであるHibikiを紹介する。
Hibikiは、マルチストリーム言語モデルを利用して、ソースとターゲットの音声を同期的に処理し、テキストとオーディオトークンを共同で生成し、音声からテキストへの変換と音声から音声への変換を行う。
論文 参考訳(メタデータ) (2025-02-05T17:18:55Z) - Incremental Blockwise Beam Search for Simultaneous Speech Translation
with Controllable Quality-Latency Tradeoff [49.75167556773752]
ブロックワイズ・セルフアテンショナル・エンコーダ・モデル(英語版)は、同時音声翻訳において有望なエンドツーエンドのアプローチとして登場した。
本稿では、局所的な合意や品質レイテンシ制御のための$nのポリシーを組み込んだインクリメンタルなブロックワイドビームサーチを提案する。
論文 参考訳(メタデータ) (2023-09-20T14:59:06Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Faster Re-translation Using Non-Autoregressive Model For Simultaneous
Neural Machine Translation [10.773010211146694]
非回帰的シーケンス生成モデル(FReTNA)に基づく高速再翻訳システムを提案する。
提案モデルでは,ReTAモデルと比較して平均計算時間を20倍に削減する。
また、ストリーミングベースのwait-kモデルよりも時間(1.5倍)と翻訳品質の両方で優れている。
論文 参考訳(メタデータ) (2020-12-29T09:43:27Z) - SimulEval: An Evaluation Toolkit for Simultaneous Translation [59.02724214432792]
テキストと音声の同時翻訳は、リアルタイムと低レイテンシのシナリオに焦点を当てている。
SimulEvalは、テキストと音声の同時翻訳のための、使いやすくて汎用的な評価ツールキットである。
論文 参考訳(メタデータ) (2020-07-31T17:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。