論文の概要: On the Difficulty of Segmenting Words with Attention
- arxiv url: http://arxiv.org/abs/2109.10107v1
- Date: Tue, 21 Sep 2021 11:37:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 14:14:01.471950
- Title: On the Difficulty of Segmenting Words with Attention
- Title(参考訳): 注意を伴う単語分割の難しさについて
- Authors: Ramon Sanabria, Hao Tang, Sharon Goldwater
- Abstract要約: しかし、モノリンガルデータでさえこのアプローチは脆弱であることを示す。
異なる入力タイプ、データサイズ、セグメンテーションアルゴリズムの実験では、単語から電話を予測するために訓練されたモデルのみがタスクを成功させる。
- 参考スコア(独自算出の注目度): 32.97060026226872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word segmentation, the problem of finding word boundaries in speech, is of
interest for a range of tasks. Previous papers have suggested that for
sequence-to-sequence models trained on tasks such as speech translation or
speech recognition, attention can be used to locate and segment the words. We
show, however, that even on monolingual data this approach is brittle. In our
experiments with different input types, data sizes, and segmentation
algorithms, only models trained to predict phones from words succeed in the
task. Models trained to predict words from either phones or speech (i.e., the
opposite direction needed to generalize to new data), yield much worse results,
suggesting that attention-based segmentation is only useful in limited
scenarios.
- Abstract(参考訳): 単語セグメンテーション(英: word segmentation)とは、言語における単語境界を見つける問題である。
前述した論文では、音声翻訳や音声認識などのタスクで訓練されたシーケンスからシーケンスへのモデルでは、単語の検索と分割に注意が向けられることを示唆している。
しかし、このアプローチは単言語データでも不安定であることを示している。
異なる入力タイプ、データサイズ、セグメンテーションアルゴリズムを用いた実験では、単語から電話を予測するために訓練されたモデルのみがタスクを成功させる。
電話または音声から単語を予測するために訓練されたモデル(すなわち、新しいデータに一般化するのに必要となる反対方向)は、はるかに悪い結果をもたらす。
関連論文リスト
- Segmenting Messy Text: Detecting Boundaries in Text Derived from
Historical Newspaper Images [0.0]
新聞の結婚発表リストを1つの発表単位に分けるという,困難なテキストセグメンテーションの課題について考察する。
多くの場合、情報は文に構造化されず、隣接するセグメントは互いに位相的に区別されない。
本稿では,このようなテキストをセグメント化するための新しいディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2023-12-20T05:17:06Z) - Segment and Caption Anything [126.20201216616137]
本稿では,地域キャプションを生成する機能を備えたセグメンション・アプライシング・モデルを提案する。
軽量なクエリベースの機能ミキサーを導入することで、地域固有の特徴と、後続キャプション生成のための言語モデルの埋め込み空間を整合させる。
提案手法の優位性を実証し,それぞれの設計選択を検証するために,広範な実験を行う。
論文 参考訳(メタデータ) (2023-12-01T19:00:17Z) - Towards Open Vocabulary Learning: A Survey [146.90188069113213]
ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。
近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。
本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
論文 参考訳(メタデータ) (2023-06-28T02:33:06Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Word Order Does Matter (And Shuffled Language Models Know It) [9.990431777927421]
近年の研究では、ランダムに置換された文に対して事前訓練および/または微調整された言語モデルがGLUE上での競合性能を示すことが示されている。
シャッフルテキストエンコードから得られた位置埋め込みについて検討し、これらのモデルが元の自然主義的な単語順序に関する情報を保持することを示す。
論文 参考訳(メタデータ) (2022-03-21T14:10:15Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z) - BATS: A Spectral Biclustering Approach to Single Document Topic Modeling
and Segmentation [17.003488045214972]
既存のトピックモデリングとテキストセグメンテーションの方法論は一般的に、トレーニングのために大きなデータセットを必要とする。
単一のドキュメントを扱う方法論を開発する際、我々は2つの大きな課題に直面します。
1つのドキュメントのみにアクセスすることで、従来のトピックモデルやディープラーニングアルゴリズムをトレーニングすることはできないのです。
第二に大きなノイズ: 単一の文書にある単語のかなりの部分がノイズのみを生成し、トピックやセグメントの識別に役立ちません。
論文 参考訳(メタデータ) (2020-08-05T16:34:33Z) - Whole-Word Segmental Speech Recognition with Acoustic Word Embeddings [28.04666950237383]
本研究では,全単語(音響対単語)音声認識のためのセグメントモデルについて検討する。
本稿では,エンドツーエンドの単語セグメントモデルに対する効率的なアプローチについて述べる。
音響セグメント表現の事前学習により,単語誤り率を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2020-07-01T02:22:09Z) - Catplayinginthesnow: Impact of Prior Segmentation on a Model of Visually
Grounded Speech [24.187382590960254]
子どもたちは、音声入力を音素に分割し、そこから単語を組み立てることで、語彙を作らない。
これは、言語を学ぶ理想的な方法は、完全なセマンティックユニットから始めることである。
本稿では、RNNモデルにそのような情報を導入し、どのタイプの境界が最も効率的かを調べるための簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-06-15T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。