論文の概要: NEO-BENCH: Evaluating Robustness of Large Language Models with Neologisms
- arxiv url: http://arxiv.org/abs/2402.12261v2
- Date: Sat, 16 Mar 2024 20:29:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 02:02:06.566646
- Title: NEO-BENCH: Evaluating Robustness of Large Language Models with Neologisms
- Title(参考訳): NEO-BENCH: ニューロジズムを用いた大規模言語モデルのロバスト性評価
- Authors: Jonathan Zheng, Alan Ritter, Wei Xu,
- Abstract要約: 我々は、いくつかの一般的な収集手法を用いて、近年のイングランドのネオロジズムの多様な資源を創出する。
我々は新語を含む文と新語を置き換えたほぼ同一の文とを既存の代用語と比較することにより,時間的ドリフトを分析する。
モデル性能は1つの新語が文中に導入されるとき、機械翻訳においてほぼ半減する。
- 参考スコア(独自算出の注目度): 19.863120275409393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of Large Language Models (LLMs) degrades from the temporal drift between data used for model training and newer text seen during inference. One understudied avenue of language change causing data drift is the emergence of neologisms -- new word forms -- over time. We create a diverse resource of recent English neologisms by using several popular collection methods. We analyze temporal drift using neologisms by comparing sentences containing new words with near-identical sentences that replace neologisms with existing substitute words. Model performance is nearly halved in machine translation when a single neologism is introduced in a sentence. Motivated by these results, we construct a benchmark to evaluate LLMs' ability to generalize to neologisms with various natural language understanding tasks and model perplexity. Models with later knowledge cutoff dates yield lower perplexities and perform better in downstream tasks. LLMs are also affected differently based on the linguistic origins of words, indicating that neologisms are complex for static LLMs to address. We will release our benchmark and code for reproducing our experiments.
- Abstract(参考訳): 大規模言語モデル(LLM)の性能は、モデルトレーニングに使用されるデータと推論中に見られる新しいテキストの間の時間的ドリフトから低下する。
データドリフトを引き起こす言語変更の未調査の道の1つは、新しい言葉形式であるネオロジズムの出現である。
我々は、いくつかの一般的な収集手法を用いて、近年のイングランドのネオロジズムの多様な資源を創出する。
我々は,新語を含む文と,新語を代替語に置き換えるほぼ同一の文とを比較して,新語を用いた時間的ドリフトの分析を行った。
モデル性能は1つの新語が文中に導入されるとき、機械翻訳においてほぼ半減する。
これらの結果から,様々な自然言語理解タスクとモデルパープレキシティを備えた新語に一般化するLLMの能力を評価するためのベンチマークを構築した。
後続の知識カットオフのモデルでは、より難易度が低くなり、下流のタスクでより良く機能する。
LLMは単語の言語的起源にもとづいて異なる影響を受けており、静的LLMにはネオロジズムが複雑であることを示している。
実験を再現するためのベンチマークとコードをリリースします。
関連論文リスト
- Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。
本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。
AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文 参考訳(メタデータ) (2024-05-02T17:32:59Z) - Beware of Words: Evaluating the Lexical Richness of Conversational Large
Language Models [3.0059120458540383]
対話型大言語モデル(LLM)が生成するテキストの語彙的リッチ性の評価と,それがモデルパラメータにどのように依存するかを検討する。
その結果、語彙豊かさがChatGPTのバージョンと、そのパラメータのいくつか、例えば存在ペナルティやモデルに割り当てられた役割にどのように依存しているかが示される。
論文 参考訳(メタデータ) (2024-02-11T13:41:17Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating
Generalization Capacity of Language Models [18.874880342410876]
本稿では、時間的推測に焦点を当てた日本のベンチマークであるJampを紹介する。
我々のデータセットには時間的推論パターンが含まれており、きめ細かい分析を行うことができます。
時制フラグメントに基づいてデータセットを分割することにより,単言語/多言語LMの一般化能力を評価する。
論文 参考訳(メタデータ) (2023-06-19T07:00:14Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z) - Morphological Word Segmentation on Agglutinative Languages for Neural
Machine Translation [8.87546236839959]
ニューラル機械翻訳(NMT)のソース側における形態素単語分割法を提案する。
形態学の知識を取り入れて、単語構造における言語情報や意味情報を保存し、訓練時の語彙サイズを小さくする。
これは、他の自然言語処理(NLP)タスクのために、単語を集約言語に分割する前処理ツールとして利用することができる。
論文 参考訳(メタデータ) (2020-01-02T10:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。