論文の概要: Signal in Noise: Exploring Meaning Encoded in Random Character Sequences
with Character-Aware Language Models
- arxiv url: http://arxiv.org/abs/2203.07911v1
- Date: Tue, 15 Mar 2022 13:48:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 21:49:05.299467
- Title: Signal in Noise: Exploring Meaning Encoded in Random Character Sequences
with Character-Aware Language Models
- Title(参考訳): 雑音の信号:文字認識言語モデルを用いたランダムな文字列に符号化された意味探索
- Authors: Mark Chu, Bhargav Srinivasa Desikan, Ethan O. Nadler, Ruggerio L.
Sardo, Elise Darragh-Ford, and Douglas Guilbeault
- Abstract要約: ランダムな文字列からなる$n$-grams、または$garble$は、現在ある言語内外における単語の意味を研究するための新しい文脈を提供する。
characterBERT を用いて,巨大コーパス,既存言語,擬似単語の埋め込みを研究することにより,モデルの高次元埋め込み空間の軸を同定し,これらのクラスを$n$-gram で分離する。
- 参考スコア(独自算出の注目度): 0.7454831343436739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language processing models learn word representations based on the
distributional hypothesis, which asserts that word context (e.g.,
co-occurrence) correlates with meaning. We propose that $n$-grams composed of
random character sequences, or $garble$, provide a novel context for studying
word meaning both within and beyond extant language. In particular, randomly
generated character $n$-grams lack meaning but contain primitive information
based on the distribution of characters they contain. By studying the
embeddings of a large corpus of garble, extant language, and pseudowords using
CharacterBERT, we identify an axis in the model's high-dimensional embedding
space that separates these classes of $n$-grams. Furthermore, we show that this
axis relates to structure within extant language, including word
part-of-speech, morphology, and concept concreteness. Thus, in contrast to
studies that are mainly limited to extant language, our work reveals that
meaning and primitive information are intrinsically linked.
- Abstract(参考訳): 自然言語処理モデルは分布仮説に基づいて単語表現を学習し、単語の文脈(例えば共起)は意味と相関すると主張する。
ランダムな文字列からなる$n$-grams または $garble$ は、既存の言語内外の単語の意味を研究するための新しい文脈を提供する。
特に、ランダムに生成された文字 $n$-grams は意味を欠いているが、それらに含まれる文字の分布に基づく原始情報を含んでいる。
characterBERT を用いて,巨大コーパス,既存言語,擬似単語の埋め込みを研究することにより,モデルの高次元埋め込み空間の軸を同定し,これらのクラスを$n$-gram で分離する。
さらに,この軸は,単語の一部,形態,概念具体性など,既存の言語の構造に関係していることを示す。
したがって、主に現存する言語に限られる研究とは対照的に、本研究は意味と原始情報が本質的に結びついていることを明らかにする。
関連論文リスト
- Linguistic Structure from a Bottleneck on Sequential Information Processing [5.850665541267672]
予測情報によって制約されたコードに自然言語のような体系性が生じることを示す。
人間の言語は、音韻学、形態学、構文学、意味論のレベルにおいて、低い予測情報を持つように構成されている。
論文 参考訳(メタデータ) (2024-05-20T15:25:18Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Semantic Role Labeling Meets Definition Modeling: Using Natural Language
to Describe Predicate-Argument Structures [104.32063681736349]
本稿では,離散ラベルの代わりに自然言語定義を用いて述語-代名詞構造を記述する手法を提案する。
PropBankスタイルおよびFrameNetスタイル、依存性ベースおよびスパンベースSRLに関する実験と分析は、解釈可能な出力を持つフレキシブルモデルが必ずしも性能を犠牲にしないことを示す。
論文 参考訳(メタデータ) (2022-12-02T11:19:16Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Exploiting Word Semantics to Enrich Character Representations of Chinese
Pre-trained Models [12.0190584907439]
本稿では,単語構造を利用して語彙意味を事前学習したモデルの文字表現に統合する手法を提案する。
提案手法は,中国の異なるNLPタスクにおけるBERT,BERT-wwm,ERNIEよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-07-13T02:28:08Z) - Disentangled Action Recognition with Knowledge Bases [77.77482846456478]
本研究では,新規な動詞や新規な名詞に対する合成行動認識モデルの一般化能力の向上を目指す。
従来の作業では、知識グラフ内の動詞-名詞合成アクションノードを使用しており、スケールを非効率にしている。
本提案手法は, 行動の固有な構成性を活用する, 知識ベースを用いた不整合行動認識(DARK)である。
論文 参考訳(メタデータ) (2022-07-04T20:19:13Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - Word Order Does Matter (And Shuffled Language Models Know It) [9.990431777927421]
近年の研究では、ランダムに置換された文に対して事前訓練および/または微調整された言語モデルがGLUE上での競合性能を示すことが示されている。
シャッフルテキストエンコードから得られた位置埋め込みについて検討し、これらのモデルが元の自然主義的な単語順序に関する情報を保持することを示す。
論文 参考訳(メタデータ) (2022-03-21T14:10:15Z) - Low-Dimensional Structure in the Space of Language Representations is
Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。
この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。
これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T22:59:12Z) - Enhancing Sindhi Word Segmentation using Subword Representation Learning and Position-aware Self-attention [19.520840812910357]
シンディー語のセグメンテーションは、宇宙の欠落と挿入の問題のために難しい課題である。
既存のシンディー語のセグメンテーション手法は手作りの機能の設計と組み合わせに依存している。
本稿では,単語分割をシーケンスラベリングタスクとして扱うサブワードガイド型ニューラルワードセグメンタ(SGNWS)を提案する。
論文 参考訳(メタデータ) (2020-12-30T08:31:31Z) - Detecting New Word Meanings: A Comparison of Word Embedding Models in
Spanish [1.5356167668895644]
意味的ネオロジズム(英: Semantic neologisms, SN)は、その形態を維持しつつ、新しい意味を持つ単語である。
SNを半自動で検出するために,以下の戦略の組み合わせを実装したシステムを開発した。
本稿では,Word2Vec,Sense2Vec,FastTextという単語埋め込みモデルについて検討する。
論文 参考訳(メタデータ) (2020-01-12T21:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。