論文の概要: Recent Advances in Direct Speech-to-text Translation
- arxiv url: http://arxiv.org/abs/2306.11646v1
- Date: Tue, 20 Jun 2023 16:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 13:35:55.407943
- Title: Recent Advances in Direct Speech-to-text Translation
- Title(参考訳): 音声からテキストへの直接翻訳の最近の進歩
- Authors: Chen Xu, Rong Ye, Qianqian Dong, Chengqi Zhao, Tom Ko, Mingxuan Wang,
Tong Xiao, Jingbo Zhu
- Abstract要約: 我々は、既存の研究成果を、モデリングの負担、データの不足、アプリケーション問題という3つの課題に基づいて分類する。
データ不足の課題に対して、最近の研究は、データ強化、事前学習、知識蒸留、多言語モデリングなど、多くの高度な技術を活用している。
我々は、リアルタイム、セグメンテーション、名前付きエンティティ、性別バイアス、コードスイッチングなど、アプリケーションの問題を分析して要約する。
- 参考スコア(独自算出の注目度): 58.692782919570845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, speech-to-text translation has attracted more and more attention
and many studies have emerged rapidly. In this paper, we present a
comprehensive survey on direct speech translation aiming to summarize the
current state-of-the-art techniques. First, we categorize the existing research
work into three directions based on the main challenges -- modeling burden,
data scarcity, and application issues. To tackle the problem of modeling
burden, two main structures have been proposed, encoder-decoder framework
(Transformer and the variants) and multitask frameworks. For the challenge of
data scarcity, recent work resorts to many sophisticated techniques, such as
data augmentation, pre-training, knowledge distillation, and multilingual
modeling. We analyze and summarize the application issues, which include
real-time, segmentation, named entity, gender bias, and code-switching.
Finally, we discuss some promising directions for future work.
- Abstract(参考訳): 近年,音声からテキストへの翻訳が注目され,研究が急速に進んでいる。
本稿では,現在の技術動向を要約する直接音声翻訳に関する総合的な調査を行う。
まず、既存の研究成果を、モデリングの負担、データの不足、アプリケーション問題という3つの課題に基づいて分類する。
モデリング負荷の問題に取り組むため、エンコーダ・デコーダフレームワーク(トランスフォーマと変種)とマルチタスクフレームワークという2つの主要な構造が提案されている。
データ不足の課題に対して、最近の研究は、データ強化、事前学習、知識蒸留、多言語モデリングなど、多くの高度な技術を活用している。
我々は、リアルタイム、セグメンテーション、名前付きエンティティ、性別バイアス、コードスイッチングを含むアプリケーションの問題を分析・要約する。
最後に,今後の作業への有望な方向性について論じる。
関連論文リスト
- From Word Vectors to Multimodal Embeddings: Techniques, Applications, and Future Directions For Large Language Models [17.04716417556556]
本稿では,分布仮説や文脈的類似性といった基礎概念を概観する。
本稿では, ELMo, BERT, GPTなどのモデルにおいて, 静的な埋め込みと文脈的埋め込みの両方について検討する。
議論は文章や文書の埋め込みにまで拡張され、集約メソッドや生成トピックモデルをカバーする。
モデル圧縮、解釈可能性、数値エンコーディング、バイアス緩和といった高度なトピックを分析し、技術的な課題と倫理的意味の両方に対処する。
論文 参考訳(メタデータ) (2024-11-06T15:40:02Z) - A Survey on Multi-modal Machine Translation: Tasks, Methods and Challenges [35.873666277696096]
マルチモーダル機械翻訳は学術と産業の両方に大きな関心を集めている。
テキストと視覚の両方を入力として取り、視覚的コンテキストを活用して、ソーステキストの曖昧さに対処する。
論文 参考訳(メタデータ) (2024-05-21T10:34:47Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Multilingual Multimodality: A Taxonomical Survey of Datasets,
Techniques, Challenges and Opportunities [10.721189858694396]
マルチ言語とマルチモーダル(MultiX)ストリームの統合について検討する。
我々は、並列アノテーションで研究された言語、金または銀のデータを調べ、これらのモダリティと言語がモデリングにおいてどのように相互作用するかを理解する。
モデリングアプローチの長所と短所とともに、どのシナリオを確実に使用できるのかをよりよく理解するために、モデリングアプローチについて説明します。
論文 参考訳(メタデータ) (2022-10-30T21:46:01Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - X-SCITLDR: Cross-Lingual Extreme Summarization of Scholarly Documents [12.493662336994106]
学術領域における4つの異なる言語に対する抽象的言語間要約データセットを提案する。
我々は、英語論文を処理し、ドイツ語、イタリア語、中国語、日本語で要約を生成するモデルを訓練し、評価する。
論文 参考訳(メタデータ) (2022-05-30T12:31:28Z) - Positioning yourself in the maze of Neural Text Generation: A
Task-Agnostic Survey [54.34370423151014]
本稿では, ストーリーテリング, 要約, 翻訳など, 世代ごとのタスクインパクトをリレーする手法の構成要素について検討する。
本稿では,学習パラダイム,事前学習,モデリングアプローチ,復号化,各分野における重要な課題について,命令的手法の抽象化を提案する。
論文 参考訳(メタデータ) (2020-10-14T17:54:42Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z) - Speech Translation and the End-to-End Promise: Taking Stock of Where We
Are [16.45182811689674]
音声翻訳は、その主要な研究テーマにおいていくつかの変化を経験してきた。
最近のエンドツーエンドモデリング技術は、これらの問題を克服する原則的な方法を約束します。
多くのエンドツーエンドモデルは、データの不足に対処するための妥協のため、これらの問題を解決するには不足している。
論文 参考訳(メタデータ) (2020-04-14T08:43:51Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。