論文の概要: SASST: Leveraging Syntax-Aware Chunking and LLMs for Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2508.07781v1
- Date: Mon, 11 Aug 2025 09:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.022513
- Title: SASST: Leveraging Syntax-Aware Chunking and LLMs for Simultaneous Speech Translation
- Title(参考訳): SASST:同時音声翻訳のための構文認識チャンキングとLLMの活用
- Authors: Zeyu Yang, Lai Wei, Roman Koshkin, Xi Chen, Satoshi Nakamura,
- Abstract要約: 本研究は,依存関係を解析することにより,入力ストリームを意味的に完全な単位に分割する文法に基づくチャンキング戦略を提案する。
SASST(Syntax-Aware Simultaneous Speech Translation)は,凍結したWhisperエンコーダとデコーダのみのLLMを統合したエンドツーエンドのフレームワークである。
- 参考スコア(独自算出の注目度): 16.85064064077492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work proposes a grammar-based chunking strategy that segments input streams into semantically complete units by parsing dependency relations (e.g., noun phrase boundaries, verb-object structures) and punctuation features. The method ensures chunk coherence and minimizes semantic fragmentation. Building on this mechanism, we present SASST (Syntax-Aware Simultaneous Speech Translation), an end-to-end framework integrating frozen Whisper encoder and decoder-only LLM. The unified architecture dynamically outputs translation tokens or <WAIT> symbols to jointly optimize translation timing and content, with target-side reordering addressing word-order divergence. Experiments on CoVoST2 multilingual corpus En-{De, Zh, Ja} demonstrate significant translation quality improvements across languages and validate the effectiveness of syntactic structures in LLM-driven SimulST systems.
- Abstract(参考訳): 本研究は,関係関係(名詞句境界,動詞オブジェクト構造)と句読点特徴を解析することにより,入力ストリームを意味的に完全な単位に分割する文法に基づくチャンキング戦略を提案する。
この方法はチャンクコヒーレンスを保証し、セマンティックフラグメンテーションを最小限にする。
本稿では,凍結したWhisperエンコーダとデコーダのみのLLMを統合したエンドツーエンドフレームワークであるSASST(Syntax-Aware Simultaneous Speech Translation)を提案する。
統合されたアーキテクチャは、翻訳タイミングと内容を協調的に最適化するために翻訳トークンまたは<WAIT>シンボルを動的に出力する。
CoVoST2多言語コーパスEn-{De, Zh, Ja}の実験では言語間の翻訳品質が大幅に向上し,LLM駆動型SimulSTシステムにおける構文構造の有効性が検証された。
関連論文リスト
- LM-SPT: LM-Aligned Semantic Distillation for Speech Tokenization [8.365515332927444]
近年の音声トークン化手法は,低レベル音響から意味情報を分離し,言語モデルとの整合性を向上することを目的としている。
新規なセマンティック蒸留を導入する音声トークン化手法であるLM-SPTを提案する。
LM-SPTは,ベースラインに比べて高い再現性が得られることを示す。
論文 参考訳(メタデータ) (2025-06-20T04:15:14Z) - Efficient and Adaptive Simultaneous Speech Translation with Fully Unidirectional Architecture [14.056534007451763]
同時音声翻訳(SimulST)は、部分的な音声入力を処理しながら段階的に翻訳を生成する。
既存のLLMベースのSimulSTアプローチは、双方向音声エンコーダの繰り返し符号化による計算オーバーヘッドが大きい。
完全一方向アーキテクチャを用いた効率・適応同時音声翻訳(EASiST)を提案する。
論文 参考訳(メタデータ) (2025-04-16T06:46:15Z) - Context-Alignment: Activating and Enhancing LLM Capabilities in Time Series [3.453940014682793]
本研究では,Large Language Models (LLMs) に習熟した言語環境において,時系列(TS)データを言語成分と整合させるコンテキストアライメントを提案する。
このようなコンテキストレベルのアライメントは、DSCA-GNN(Dual-Scale Context-Alignment GNN)によって達成される構造的アライメントと論理的アライメントを含む。
大規模な実験は、特に少数ショットおよびゼロショット予測において、DeCAの有効性とタスク間のコンテキストアライメントの重要性を示している。
論文 参考訳(メタデータ) (2025-01-07T12:40:35Z) - Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - AlloST: Low-resource Speech Translation without Source Transcription [17.53382405899421]
言語に依存しないユニバーサル電話認識機能を利用する学習フレームワークを提案する。
このフレームワークは注意に基づくシーケンス・トゥ・シークエンスモデルに基づいている。
スペイン英語とタイギ・マンダリンのドラマ『コーポラ』で行った実験では、本手法がコンフォーメータベースのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2021-05-01T05:30:18Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。