論文の概要: Are word boundaries useful for unsupervised language learning?
- arxiv url: http://arxiv.org/abs/2210.02956v1
- Date: Thu, 6 Oct 2022 14:49:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 16:25:55.719451
- Title: Are word boundaries useful for unsupervised language learning?
- Title(参考訳): 単語境界は教師なし言語学習に役立つか?
- Authors: Tu Anh Nguyen, Maureen de Seyssel, Robin Algayres, Patricia Roze, Ewan
Dunbar, Emmanuel Dupoux
- Abstract要約: 単語は少なくとも2種類の関連情報(境界情報と意味単位)を提供する。
音声入力の場合,単語境界情報が欠落しているか,信頼できないかを示す。
我々は,非教師付きセグメンテーションアルゴリズムで得られたゴールド境界を,自動的に検出した領域に置き換えることができることを示す。
- 参考スコア(独自算出の注目度): 13.049946284598935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word or word-fragment based Language Models (LM) are typically preferred over
character-based ones in many downstream applications. This may not be
surprising as words seem more linguistically relevant units than characters.
Words provide at least two kinds of relevant information: boundary information
and meaningful units. However, word boundary information may be absent or
unreliable in the case of speech input (word boundaries are not marked
explicitly in the speech stream). Here, we systematically compare LSTMs as a
function of the input unit (character, phoneme, word, word part), with or
without gold boundary information. We probe linguistic knowledge in the
networks at the lexical, syntactic and semantic levels using three
speech-adapted black box NLP psycholinguistically-inpired benchmarks (pWUGGY,
pBLIMP, pSIMI). We find that the absence of boundaries costs between 2\% and
28\% in relative performance depending on the task. We show that gold
boundaries can be replaced by automatically found ones obtained with an
unsupervised segmentation algorithm, and that even modest segmentation
performance gives a gain in performance on two of the three tasks compared to
basic character/phone based models without boundary information.
- Abstract(参考訳): 単語または単語フレームベースの言語モデル(LM)は、多くの下流アプリケーションにおいて文字ベースの言語モデルよりも好まれる。
単語は文字よりも言語的に関連のある単位に見えるので、これは驚くことではないかもしれない。
単語は少なくとも2種類の関連情報(境界情報と意味単位)を提供する。
しかし、音声入力の場合、単語境界情報は欠落または信頼できない場合がある(単語境界は音声ストリームでは明示的にマークされない)。
ここでは,LSTMを入力単位(文字,音素,単語,単語部分)と金境界情報の有無の関数として体系的に比較する。
pWUGGY, pBLIMP, pSIMI の3つの言語適応ブラックボックス NLP を用いて, 語彙, 構文, 意味レベルでの言語知識を探索した。
境界の欠如は、タスクによる相対的なパフォーマンスにおいて2\%から28\%のコストがかかることが判明した。
教師なしセグメンテーションアルゴリズムで得られたゴールドバウンダリを自動的に検出することで,ゴールドバウンダリを置き換えることが可能であること,また境界情報のない基本文字/電話モデルと比較して,モデストセグメンテーション性能でも2つのタスクにおいて性能が向上することを示した。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - XLS-R fine-tuning on noisy word boundaries for unsupervised speech
segmentation into words [13.783996617841467]
XLS-Rモデルを微調整し、上位層音声分割システムによって生成された単語境界を予測する。
我々のシステムは、ゼロショット方式で微調整中に目に見えない言語から音声を分割することができる。
論文 参考訳(メタデータ) (2023-10-08T17:05:00Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - DP-Parse: Finding Word Boundaries from Raw Speech with an Instance
Lexicon [18.05179713472479]
DP-Parseも同様の原理を用いるが、ワードトークンのインスタンスレキシコンにのみ依存する。
Zero Resource Speech Benchmark 2017で、我々のモデルは5つの言語で新しい音声セグメンテーション状態を設定する。
型レキシコンが欠如しているにもかかわらず、DP-Parseは言語モデルにパイプライン化され、新しい音声単語埋め込みベンチマークで評価されるように、セマンティック表現を学ぶことができる。
論文 参考訳(メタデータ) (2022-06-22T19:15:57Z) - Between words and characters: A Brief History of Open-Vocabulary
Modeling and Tokenization in NLP [22.772546707304766]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。
すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ない。
論文 参考訳(メタデータ) (2021-12-20T13:04:18Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Enhancing Sindhi Word Segmentation using Subword Representation Learning and Position-aware Self-attention [19.520840812910357]
シンディー語のセグメンテーションは、宇宙の欠落と挿入の問題のために難しい課題である。
既存のシンディー語のセグメンテーション手法は手作りの機能の設計と組み合わせに依存している。
本稿では,単語分割をシーケンスラベリングタスクとして扱うサブワードガイド型ニューラルワードセグメンタ(SGNWS)を提案する。
論文 参考訳(メタデータ) (2020-12-30T08:31:31Z) - Catplayinginthesnow: Impact of Prior Segmentation on a Model of Visually
Grounded Speech [24.187382590960254]
子どもたちは、音声入力を音素に分割し、そこから単語を組み立てることで、語彙を作らない。
これは、言語を学ぶ理想的な方法は、完全なセマンティックユニットから始めることである。
本稿では、RNNモデルにそのような情報を導入し、どのタイプの境界が最も効率的かを調べるための簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-06-15T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。