論文の概要: Contextualized Sensorimotor Norms: multi-dimensional measures of
sensorimotor strength for ambiguous English words, in context
- arxiv url: http://arxiv.org/abs/2203.05648v1
- Date: Thu, 10 Mar 2022 21:23:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 21:05:14.295501
- Title: Contextualized Sensorimotor Norms: multi-dimensional measures of
sensorimotor strength for ambiguous English words, in context
- Title(参考訳): 文脈型感覚運動ノルム:曖昧な英語単語に対する知覚運動強度の多次元計測
- Authors: Sean Trott and Benjamin Bergen
- Abstract要約: 我々は112の英単語に対する文脈化感性判断の新しい語彙資源を構築した。
これらの評価は、ランカスターのSensorimotor Normsと重複しているが異なる情報をエンコードしていることを示す。
これらの評価は、基底言語モデルを構築する研究者にとって「カオスセット」として使われる可能性があることを示唆する。
- 参考スコア(独自算出の注目度): 9.13755431537592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most large language models are trained on linguistic input alone, yet humans
appear to ground their understanding of words in sensorimotor experience. A
natural solution is to augment LM representations with human judgments of a
word's sensorimotor associations (e.g., the Lancaster Sensorimotor Norms), but
this raises another challenge: most words are ambiguous, and judgments of words
in isolation fail to account for this multiplicity of meaning (e.g., "wooden
table" vs. "data table"). We attempted to address this problem by building a
new lexical resource of contextualized sensorimotor judgments for 112 English
words, each rated in four different contexts (448 sentences total). We show
that these ratings encode overlapping but distinct information from the
Lancaster Sensorimotor Norms, and that they also predict other measures of
interest (e.g., relatedness), above and beyond measures derived from BERT.
Beyond shedding light on theoretical questions, we suggest that these ratings
could be of use as a "challenge set" for researchers building grounded language
models.
- Abstract(参考訳): ほとんどの大きな言語モデルは言語入力だけで訓練されているが、人間は感覚運動経験における単語の理解を基盤にしているように見える。
自然な解法は、単語の知覚的関連(例えばランカスター知覚的ノルム)の人間の判断によるLM表現を強化することであるが、これは別の課題を生じさせる: ほとんどの単語は曖昧であり、孤立した単語の判断は、この多義性(例:「木テーブル」対「データテーブル」)を説明できない。
我々は,4つの文脈で評価された112の英単語に対して,文脈化感性判断の新しい語彙資源を構築することにより,この問題に対処しようとした。
これらの評価はLancaster Sensorimotor Normsと重複するが、異なる情報を符号化し、BERTから派生した他の指標(例えば、関連性)も予測していることを示す。
理論的な疑問に光を当てるだけでなく、これらの評価は、基礎言語モデルを構築する研究者のための「チャレンゲセット」として使用できることを示唆する。
関連論文リスト
- What is Sentiment Meant to Mean to Language Models? [0.0]
センチメント(sentiment)は、使用するドメインやツールによって、さまざまな概念を包含する。
感覚」は、感情、意見、市場の動き、あるいは単に一般の善悪の次元を意味するために使われてきた。
論文 参考訳(メタデータ) (2024-05-03T19:37:37Z) - Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - A Comprehensive View of the Biases of Toxicity and Sentiment Analysis
Methods Towards Utterances with African American English Expressions [5.472714002128254]
ウェブベース(YouTubeとTwitter)の2つのデータセットと英語の2つのデータセットのバイアスについて検討した。
我々は,言語問合せおよびワードカウントソフトウェアから言語制御機能を介してAE表現の使用が与える影響を分離する。
また, AAE 表現の多用により, 話者の毒性が著しく向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-01-23T12:41:03Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Shaking Syntactic Trees on the Sesame Street: Multilingual Probing with
Controllable Perturbations [2.041108289731398]
近年の研究では、テキスト摂動の概念を中心とした新しい実験分野が採用されている。
近年の研究では、シャッフル語順がトランスフォーマーベースの言語モデルの下流性能にほとんど影響しないことが明らかになっている。
論文 参考訳(メタデータ) (2021-09-28T20:15:29Z) - RAW-C: Relatedness of Ambiguous Words--in Context (A New Lexical
Resource for English) [2.792030485253753]
文脈的埋め込みが単語の意味の連続的、動的性質にどの程度適合しているかを評価する。
我々は、コサイン距離が、人間が同じ単語の感覚をいかに利用しているかを体系的に過小評価していることを示す。
本稿では,精神語彙の心理言語学理論と語彙意味論の計算モデルとの合成を提案する。
論文 参考訳(メタデータ) (2021-05-27T16:07:13Z) - Do Context-Aware Translation Models Pay the Right Attention? [61.25804242929533]
コンテキスト対応機械翻訳モデルは文脈情報を活用するように設計されているが、しばしば失敗する。
本稿では,人間の翻訳者が曖昧な単語を解くために使用する文脈について述べる。
SCAT(Supporting Context for Ambiguous Translations)は、14K翻訳のコンテキストワードをサポートする新しい英仏データセットです。
SCATを用いて,支援語の位置的特徴と語彙的特徴をあいまいにするために使用される文脈を詳細に分析する。
論文 参考訳(メタデータ) (2021-05-14T17:32:24Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Contextualized Word Embeddings Encode Aspects of Human-Like Word Sense
Knowledge [0.0]
NLPの最近の進歩、特に文脈的単語埋め込みは、英語の単語感覚間の人間的な区別を捉えているかどうかを考察する。
BERT埋め込み空間における感覚間の距離と,感覚間の関連性に関する被験者の判断が相関していることが判明した。
本研究は,意味の連続空間表現の有用性を示唆するものである。
論文 参考訳(メタデータ) (2020-10-25T07:56:52Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。