論文の概要: SimulSense: Sense-Driven Interpreting for Efficient Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2509.21932v1
- Date: Fri, 26 Sep 2025 06:18:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.227403
- Title: SimulSense: Sense-Driven Interpreting for Efficient Simultaneous Speech Translation
- Title(参考訳): SimulSense: 効率的な同時音声翻訳のためのセンス駆動型解釈
- Authors: Haotian Tan, Hiroki Ouchi, Sakriani Sakti,
- Abstract要約: 現在の最先端システムは、マルチターン対話タスクとしてSimulSTを定式化している。
入力音声を連続的に読み取ることで、人間の通訳を模倣するSimulSTの新しいフレームワークであるSimulSenseを提案する。
提案手法は,高品質なレイテンシトレードオフを実現し,リアルタイムの効率を大幅に向上させる。
- 参考スコア(独自算出の注目度): 18.064708420260228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to make human-interpreter-like read/write decisions for simultaneous speech translation (SimulST) systems? Current state-of-the-art systems formulate SimulST as a multi-turn dialogue task, requiring specialized interleaved training data and relying on computationally expensive large language model (LLM) inference for decision-making. In this paper, we propose SimulSense, a novel framework for SimulST that mimics human interpreters by continuously reading input speech and triggering write decisions to produce translation when a new sense unit is perceived. Experiments against two state-of-the-art baseline systems demonstrate that our proposed method achieves a superior quality-latency tradeoff and substantially improved real-time efficiency, where its decision-making is up to 9.6x faster than the baselines.
- Abstract(参考訳): 同時音声翻訳(SimulST)システムにおけるヒューマン・インタプリタ的読み書き決定法
現在の最先端システムは、SimulSTをマルチターン対話タスクとして定式化し、特別なインターリーブドトレーニングデータを必要とし、意思決定に計算コストのかかる大言語モデル(LLM)の推論に依存する。
本稿では,SimulSenseを提案する。SimulSTの新たなフレームワークは,入力音声を継続的に読み上げ,新たな感覚単位が認識された時に文字決定をトリガーして,人間のインタプリタを模倣する。
2つの最先端ベースラインシステムに対する実験により,提案手法はより優れた品質・レイテンシトレードオフを実現し,意思決定がベースラインよりも最大9.6倍高速なリアルタイム効率を大幅に向上することを示した。
関連論文リスト
- Direct Simultaneous Translation Activation for Large Audio-Language Models [58.03785696031301]
音声からテキストへの同時翻訳(Simul-S2TT)は,音声をテキストにリアルタイムで翻訳することを目的としている。
我々は、LALMs固有の能力を利用して同時データを得る戦略であるbf SimulSA(bf SimulSA)を導入する。
論文 参考訳(メタデータ) (2025-09-19T07:12:18Z) - SimulMEGA: MoE Routers are Advanced Policy Makers for Simultaneous Speech Translation [41.64909735021069]
SimulSTは、音声認識と機械翻訳を厳密なレイテンシ制約の下で共同で最適化することで、リアルタイムの言語間通信を可能にする。
我々は、プレフィックスベースのトレーニングとMixture-of-Expertsリファラを組み合わせた教師なしのポリシー学習フレームワークであるSimulMEGAを紹介し、効果的な読み書き判断を学習する。
論文 参考訳(メタデータ) (2025-09-01T07:34:50Z) - Efficient and Adaptive Simultaneous Speech Translation with Fully Unidirectional Architecture [14.056534007451763]
同時音声翻訳(SimulST)は、部分的な音声入力を処理しながら段階的に翻訳を生成する。
既存のLLMベースのSimulSTアプローチは、双方向音声エンコーダの繰り返し符号化による計算オーバーヘッドが大きい。
完全一方向アーキテクチャを用いた効率・適応同時音声翻訳(EASiST)を提案する。
論文 参考訳(メタデータ) (2025-04-16T06:46:15Z) - Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文 参考訳(メタデータ) (2024-02-01T14:46:35Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Continuous Rating as Reliable Human Evaluation of Simultaneous Speech Translation [1.3654846342364308]
本研究では,ソース言語知識の異なる審査員を対象に,連続レーティングと事実アンケートを比較した。
以上の結果から,判断者がソース言語について少なくとも限られた知識を持っている場合,連続レーティングは容易かつ信頼性の高いSST品質評価であることが示された。
論文 参考訳(メタデータ) (2022-03-04T17:41:39Z) - Decision Attentive Regularization to Improve Simultaneous Speech
Translation Systems [12.152208198444182]
SimulSTシステムでは、音声を部分入力を用いてタンデムで変換する。
近年,オフライン領域における音声翻訳(ST)の性能向上のために,テキスト翻訳タスクの活用が試みられている。
これらの改良により,モノトニック・マルチヘッド・アテンション(MMA)に基づくSimulSTシステムにDAR(Decision Attentive Regularization)を追加することを提案する。
論文 参考訳(メタデータ) (2021-10-13T08:33:31Z) - It is Not as Good as You Think! Evaluating Simultaneous Machine
Translation on Interpretation Data [58.105938143865906]
我々は、実解釈データに基づいて、SiMTシステムをトレーニングし、テストすべきであると主張している。
以上の結果から,SiMTモデルが翻訳データと解釈データで評価された場合,最大13.83BLEUスコアの違いが明らかになった。
論文 参考訳(メタデータ) (2021-10-11T12:27:07Z) - Towards the evaluation of simultaneous speech translation from a
communicative perspective [0.0]
本稿では,同時音声翻訳エンジンの品質評価を目的とした実験結果について述べる。
機械が情報性の観点からやや良く機能する一方で、人間の通訳者にとって、知性の観点からはより良いパフォーマンスを見出した。
論文 参考訳(メタデータ) (2021-03-15T13:09:00Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - SimulEval: An Evaluation Toolkit for Simultaneous Translation [59.02724214432792]
テキストと音声の同時翻訳は、リアルタイムと低レイテンシのシナリオに焦点を当てている。
SimulEvalは、テキストと音声の同時翻訳のための、使いやすくて汎用的な評価ツールキットである。
論文 参考訳(メタデータ) (2020-07-31T17:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。