論文の概要: Speech Translation and the End-to-End Promise: Taking Stock of Where We
Are
- arxiv url: http://arxiv.org/abs/2004.06358v1
- Date: Tue, 14 Apr 2020 08:43:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 09:30:55.517837
- Title: Speech Translation and the End-to-End Promise: Taking Stock of Where We
Are
- Title(参考訳): 音声翻訳とエンド・ツー・エンドの約束--現在地を振り返る
- Authors: Matthias Sperber, Matthias Paulik
- Abstract要約: 音声翻訳は、その主要な研究テーマにおいていくつかの変化を経験してきた。
最近のエンドツーエンドモデリング技術は、これらの問題を克服する原則的な方法を約束します。
多くのエンドツーエンドモデルは、データの不足に対処するための妥協のため、これらの問題を解決するには不足している。
- 参考スコア(独自算出の注目度): 16.45182811689674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over its three decade history, speech translation has experienced several
shifts in its primary research themes; moving from loosely coupled cascades of
speech recognition and machine translation, to exploring questions of tight
coupling, and finally to end-to-end models that have recently attracted much
attention. This paper provides a brief survey of these developments, along with
a discussion of the main challenges of traditional approaches which stem from
committing to intermediate representations from the speech recognizer, and from
training cascaded models separately towards different objectives.
Recent end-to-end modeling techniques promise a principled way of overcoming
these issues by allowing joint training of all model components and removing
the need for explicit intermediate representations. However, a closer look
reveals that many end-to-end models fall short of solving these issues, due to
compromises made to address data scarcity. This paper provides a unifying
categorization and nomenclature that covers both traditional and recent
approaches and that may help researchers by highlighting both trade-offs and
open research questions.
- Abstract(参考訳): 音声認識と機械翻訳の緩やかに結合されたカスケードから、密結合の問題を探求し、そして最後に最近注目を集めたエンドツーエンドモデルへと移行した。
本稿では、これらの発展に関する簡単な調査と、音声認識者からの中間表現へのコミットと、異なる目的に向けて個別にカスケードモデルを訓練することによる従来のアプローチの主な課題について論じる。
最近のエンドツーエンドモデリング技術は、すべてのモデルコンポーネントを共同でトレーニングし、明示的な中間表現の必要性を取り除くことによって、これらの問題を克服する原則的な方法を約束している。
しかし、データ不足に対処するための妥協のために、多くのエンドツーエンドモデルがこれらの問題を解決するのに足りていないことが、よく分かる。
本稿では,従来のアプローチと最近のアプローチの両方を包括的に分類・命名することで,トレードオフとオープンな研究課題の両立を支援する。
関連論文リスト
- Enhanced Short Text Modeling: Leveraging Large Language Models for Topic Refinement [7.6115889231452964]
トピックリファインメント(Topic Refinement)と呼ばれる新しいアプローチを導入する。
このアプローチは、トピックの初期のモデリングに直接関係せず、採掘後にトピックを改善することに重点を置いています。
素早いエンジニアリングを駆使して、所与のトピック内での話題外単語を排除し、文脈的に関係のある単語だけが、よりセマンティックに適合した単語で保存または置換されることを保証する。
論文 参考訳(メタデータ) (2024-03-26T13:50:34Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Recent Advances in Direct Speech-to-text Translation [58.692782919570845]
我々は、既存の研究成果を、モデリングの負担、データの不足、アプリケーション問題という3つの課題に基づいて分類する。
データ不足の課題に対して、最近の研究は、データ強化、事前学習、知識蒸留、多言語モデリングなど、多くの高度な技術を活用している。
我々は、リアルタイム、セグメンテーション、名前付きエンティティ、性別バイアス、コードスイッチングなど、アプリケーションの問題を分析して要約する。
論文 参考訳(メタデータ) (2023-06-20T16:14:27Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - Topic-Aware Contrastive Learning for Abstractive Dialogue Summarization [41.75442239197745]
本研究は,コヒーレンス検出とサブ・サブ・サブ・サブ・サブ・サブ・サブ・サブ・サブ・サミマリ・ジェネレーションという2つのトピック・アウェア・コントラスト学習目標を提案する。
ベンチマークデータセットの実験では、提案手法が強いベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2021-09-10T17:03:25Z) - A Short Survey of Pre-trained Language Models for Conversational AI-A
NewAge in NLP [17.10418053437171]
最近導入された事前学習言語モデルは、データ不足の問題に対処する可能性がある。
これらのモデルは、階層的関係、長期依存、感情など、異なる言語の側面を捉えることを実証している。
本論文では,これらの事前学習モデルが対話システムに関連する課題を克服できるかどうかを明らかにする。
論文 参考訳(メタデータ) (2021-04-22T01:00:56Z) - Probing Task-Oriented Dialogue Representation from Language Models [106.02947285212132]
本稿では,タスク指向対話タスクにおいて,どのモデルが本質的に最も有意義な表現を担っているかを明らかにするために,事前学習された言語モデルについて検討する。
我々は、アノテートラベルを教師付き方法で固定された事前学習言語モデルの上に、分類器プローブとしてフィードフォワード層を微調整する。
論文 参考訳(メタデータ) (2020-10-26T21:34:39Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。