論文の概要: Language Through a Prism: A Spectral Approach for Multiscale Language
Representations
- arxiv url: http://arxiv.org/abs/2011.04823v1
- Date: Mon, 9 Nov 2020 23:17:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 00:05:45.241981
- Title: Language Through a Prism: A Spectral Approach for Multiscale Language
Representations
- Title(参考訳): プリズムによる言語:マルチスケール言語表現のためのスペクトルアプローチ
- Authors: Alex Tamkin, Dan Jurafsky, Noah Goodman
- Abstract要約: 信号処理は、スケールをまたいだ構造を分離するための自然な枠組みを提供することを示す。
入力を通したニューロンの活性化にスペクトルフィルタを適用し、音声タグ付けの一部でよく機能するフィルタ埋め込みを生成する。
また、スペクトルフィルタを用いて異なるニューロンを拘束し、異なるスケールで構造をモデル化する訓練モデルのためのプリズム層を提案する。
- 参考スコア(独自算出の注目度): 30.224517199646993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language exhibits structure at different scales, ranging from subwords to
words, sentences, paragraphs, and documents. To what extent do deep models
capture information at these scales, and can we force them to better capture
structure across this hierarchy? We approach this question by focusing on
individual neurons, analyzing the behavior of their activations at different
timescales. We show that signal processing provides a natural framework for
separating structure across scales, enabling us to 1) disentangle
scale-specific information in existing embeddings and 2) train models to learn
more about particular scales. Concretely, we apply spectral filters to the
activations of a neuron across an input, producing filtered embeddings that
perform well on part of speech tagging (word-level), dialog speech acts
classification (utterance-level), or topic classification (document-level),
while performing poorly on the other tasks. We also present a prism layer for
training models, which uses spectral filters to constrain different neurons to
model structure at different scales. Our proposed BERT + Prism model can better
predict masked tokens using long-range context and produces multiscale
representations that perform better at utterance- and document-level tasks. Our
methods are general and readily applicable to other domains besides language,
such as images, audio, and video.
- Abstract(参考訳): 言語は、サブワードから単語、文、段落、文書まで、さまざまなスケールで構造を示す。
深層モデルは、これらのスケールで情報をどの程度キャプチャし、この階層全体の構造をよりよく捉えるように強制できるか?
我々は、個々のニューロンに注目し、異なる時間スケールでの活性化の挙動を分析することで、この問題にアプローチする。
信号処理は、スケールをまたいで構造を分離する自然な枠組みを提供するので、
1)既存組込みにおけるスケール固有情報の不等角化
2)特定のスケールについてもっと学ぶためのトレーニングモデル。
具体的には,音声タグ付け(単語レベル),対話行動分類(発話レベル),トピック分類(文書レベル),その他のタスクでは不十分なフィルタ埋め込みを生成することで,入力を横断するニューロンの活性化にスペクトルフィルタを適用する。
また,様々なニューロンを制約して異なるスケールで構造をモデル化する,スペクトルフィルタを用いたトレーニングモデルのためのプリズム層を提案する。
提案したBERT + Prism モデルは,長距離コンテキストを用いてマスク付きトークンを予測し,発話および文書レベルのタスクにおいてより優れた処理を行うマルチスケール表現を生成する。
本手法は汎用的であり,画像,音声,映像などの言語以外の領域にも容易に適用できる。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - MGDoc: Pre-training with Multi-granular Hierarchy for Document Image
Understanding [53.03978356918377]
異なるレベルの粒度のコンテンツ間の空間的階層的関係は、文書画像理解タスクに不可欠である。
既存の方法は単語レベルか地域レベルから特徴を学習するが、両方を同時に考えることができない。
MGDocは,ページレベル,領域レベル,単語レベル情報を同時にエンコードするマルチモーダル・マルチグラニュラ事前学習フレームワークである。
論文 参考訳(メタデータ) (2022-11-27T22:47:37Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Seeing Both the Forest and the Trees: Multi-head Attention for Joint
Classification on Different Compositional Levels [15.453888735879525]
自然言語では、単語は関連して文を構成するために使用される。
より低い言語的コンポーネントと高い言語的コンポーネントを明確に結び付けるディープニューラルネットワークアーキテクチャを設計する。
我々のモデルであるMHALは、異なるレベルの粒度でそれらを同時に解くことを学習していることを示す。
論文 参考訳(メタデータ) (2020-11-01T10:44:46Z) - Catplayinginthesnow: Impact of Prior Segmentation on a Model of Visually
Grounded Speech [24.187382590960254]
子どもたちは、音声入力を音素に分割し、そこから単語を組み立てることで、語彙を作らない。
これは、言語を学ぶ理想的な方法は、完全なセマンティックユニットから始めることである。
本稿では、RNNモデルにそのような情報を導入し、どのタイプの境界が最も効率的かを調べるための簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-06-15T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。