Fugu-MT 論文翻訳(概要): How "Real" is Your Real-Time Simultaneous Speech-to-Text Translation System?

論文の概要: How "Real" is Your Real-Time Simultaneous Speech-to-Text Translation System?

arxiv url: http://arxiv.org/abs/2412.18495v1
Date: Tue, 24 Dec 2024 15:26:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-25 19:23:17.810338
Title: How "Real" is Your Real-Time Simultaneous Speech-to-Text Translation System?
Title（参考訳）: リアルタイム音声-テキスト同時翻訳システム「Real」について
Authors: Sara Papi, Peter Polak, Ondřej Bojar, Dominik Macháček,
Abstract要約: シマルST(SimulST)は、話者の音声とソース言語音声を同時に翻訳し、ユーザの理解を深めるために低レイテンシを確保する。非有界音声への応用を意図したものの、ほとんどの研究は、人間の事前隔離された音声に焦点を当て、タスクを単純化し、重要な課題を見落としている。
参考スコア（独自算出の注目度）: 7.252894835396412
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Simultaneous speech-to-text translation (SimulST) translates source-language speech into target-language text concurrently with the speaker's speech, ensuring low latency for better user comprehension. Despite its intended application to unbounded speech, most research has focused on human pre-segmented speech, simplifying the task and overlooking significant challenges. This narrow focus, coupled with widespread terminological inconsistencies, is limiting the applicability of research outcomes to real-world applications, ultimately hindering progress in the field. Our extensive literature review of 110 papers not only reveals these critical issues in current research but also serves as the foundation for our key contributions. We 1) define the steps and core components of a SimulST system, proposing a standardized terminology and taxonomy; 2) conduct a thorough analysis of community trends, and 3) offer concrete recommendations and future directions to bridge the gaps in existing literature, from evaluation frameworks to system architectures, for advancing the field towards more realistic and effective SimulST solutions.
Abstract（参考訳）: シマルST(SimulST)は、話者の音声とソース言語音声を同時に翻訳し、ユーザの理解を深めるために低レイテンシを確保する。非有界音声への応用を意図したものの、ほとんどの研究は、人間の事前隔離された音声に焦点を当て、タスクを単純化し、重要な課題を見落としている。この狭義の焦点は、広く用語学上の矛盾と相まって、研究成果が現実世界の応用に適用可能であることを制限し、究極的にはこの分野の進歩を妨げる。 110論文の広範な文献レビューは、これらの重要な問題を現在の研究で明らかにするだけでなく、重要なコントリビューションの基盤として役立ちます。我が家 1) SimulST システムのステップとコアコンポーネントを定義し,標準化された用語と分類を提唱する。 2)地域社会の動向を徹底的に分析し、 3. 評価フレームワークからシステムアーキテクチャに至るまで、既存の文献のギャップを埋め、より現実的で効果的なSimulSTソリューションに向けて、具体的な推奨事項と今後の方向性を提供する。

関連論文リスト

Understanding the Modality Gap: An Empirical Study on the Speech-Text Alignment Mechanism of Large Speech Language Models [12.263637152835713]
LSLM(End-to-end Large Speech Language Models)では,会話生成能力が顕著に向上している。粗くきめ細かなテキストと音声表現の両方を解析する。表現類似性はモダリティギャップと強く相関していることがわかった。
論文参考訳（メタデータ） (2025-10-14T03:34:38Z)
MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-10-01T04:32:37Z)
Language of Persuasion and Misrepresentation in Business Communication: A Textual Detection Approach [0.0]
ビジネスコミュニケーションのデジタル化は説得的談話のプロセスを再編成した。この調査は古典的修辞学とコミュニケーション心理学を言語理論と実証的研究で合成する。
論文参考訳（メタデータ） (2025-08-13T16:38:31Z)
Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models [49.1574468325115]
本稿では,命令追従能力を評価するための評価フレームワークであるSpeech-IFevalを紹介する。近年のSLMは,音声認識を大規模言語モデル (LLM) と統合し,音声中心の訓練によるテキスト能力の低下を招いている。以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
論文参考訳（メタデータ） (2025-05-25T08:37:55Z)
Enhancing Speech-to-Speech Dialogue Modeling with End-to-End Retrieval-Augmented Generation [13.559210762117061]
本稿では,音声クエリから関連するテキスト知識を直接取得する,新しいエンドツーエンドRAGフレームワークを提案する。実験結果から,本手法はエンドツーエンドのS2S対話システムの性能を大幅に向上させることが示された。我々のフレームワークは、エンド・ツー・エンドのS2Sシステムにおける知識統合を強化するための有望な方向性を提供します。
論文参考訳（メタデータ） (2025-04-27T14:35:24Z)
From Speech to Summary: A Comprehensive Survey of Speech Summarization [52.97157554560492]
音声の要約は、音声・音声コンテンツの増加量を効率的に管理し、アクセスするために欠かせないツールとなっている。その重要性が増しているにもかかわらず、音声要約はまだ明確に定義されておらず、音声認識、テキスト要約、会議要約のような特定の応用を含むいくつかの研究領域と交差している。
論文参考訳（メタデータ） (2025-04-10T17:50:53Z)
CADS: A Systematic Literature Review on the Challenges of Abstractive Dialogue Summarization [7.234196390284036]
本稿では、英語対話におけるトランスフォーマーに基づく抽象要約に関する研究を要約する。ダイアログ要約における主な課題(言語、構造、理解、話者、サリエンス、事実)をカバーします。言語などいくつかの課題がかなりの進歩を遂げているのに対して、理解、事実性、サリエンスといった課題は依然として困難であり、重要な研究機会を持っている。
論文参考訳（メタデータ） (2024-06-11T17:30:22Z)
Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。 SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文参考訳（メタデータ） (2023-11-04T04:54:17Z)
Long-form Simultaneous Speech Translation: Thesis Proposal [3.252719444437546]
同時音声翻訳 (SST) は, 話者が文を終了する前であっても, 発話言語をリアルタイムに翻訳することを目的としている。ディープラーニングはエンドツーエンド(E2E)システムに大きな関心を呼んだ。この論文の提案は、特にロングフォーム設定において、エンドツーエンドの同時音声翻訳に対処する。
論文参考訳（メタデータ） (2023-10-17T10:44:05Z)
Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文参考訳（メタデータ） (2023-07-16T15:18:25Z)
Recent Advances in Direct Speech-to-text Translation [58.692782919570845]
我々は、既存の研究成果を、モデリングの負担、データの不足、アプリケーション問題という3つの課題に基づいて分類する。データ不足の課題に対して、最近の研究は、データ強化、事前学習、知識蒸留、多言語モデリングなど、多くの高度な技術を活用している。我々は、リアルタイム、セグメンテーション、名前付きエンティティ、性別バイアス、コードスイッチングなど、アプリケーションの問題を分析して要約する。
論文参考訳（メタデータ） (2023-06-20T16:14:27Z)
BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文参考訳（メタデータ） (2023-06-02T12:54:38Z)
An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文参考訳（メタデータ） (2022-11-10T14:26:43Z)
Common Language for Goal-Oriented Semantic Communications: A Curriculum Learning Framework [66.81698651016444]
目標指向タスク実行を実現するための包括的セマンティックコミュニケーションフレームワークを提案する。カリキュラム学習(CL)と強化学習(RL)を組み合わせた新しいトップダウンフレームワークを提案する。シミュレーションの結果,提案手法は,学習中の収束時間,タスク実行時間,送信コストにおいて従来のRLよりも優れていた。
論文参考訳（メタデータ） (2021-11-15T19:13:55Z)
Visualization: the missing factor in Simultaneous Speech Translation [14.454116027072335]
同時音声翻訳(SimulST)は、部分的なインクリメンタル音声入力に対して出力生成を行うタスクである。 SimulSTは、言語間アプリケーションシナリオの普及により人気を博している。
論文参考訳（メタデータ） (2021-10-31T14:44:01Z)
On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。私たちはこの現象を「語彙依存」と呼んでいる。本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文参考訳（メタデータ） (2020-05-08T11:16:58Z)
Natural language technology and query expansion: issues, state-of-the-art and perspectives [0.0]
クエリのあいまいさや誤解釈を引き起こす言語特性と、追加の要因は、ユーザの情報ニーズを正確に表現する能力に影響を与える。汎用言語に基づく問合せ拡張フレームワークの解剖学を概説し,モジュールに基づく分解を提案する。それぞれのモジュールについて、文献における最先端のソリューションをレビューし、使用するテクニックの光の下で分類する。
論文参考訳（メタデータ） (2020-04-23T11:39:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。