Fugu-MT 論文翻訳(概要): NEO-BENCH: Evaluating Robustness of Large Language Models with Neologisms

論文の概要: NEO-BENCH: Evaluating Robustness of Large Language Models with Neologisms

arxiv url: http://arxiv.org/abs/2402.12261v2
Date: Sat, 16 Mar 2024 20:29:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 02:02:06.566646
Title: NEO-BENCH: Evaluating Robustness of Large Language Models with Neologisms
Title（参考訳）: NEO-BENCH: ニューロジズムを用いた大規模言語モデルのロバスト性評価
Authors: Jonathan Zheng, Alan Ritter, Wei Xu,
Abstract要約: 我々は、いくつかの一般的な収集手法を用いて、近年のイングランドのネオロジズムの多様な資源を創出する。我々は新語を含む文と新語を置き換えたほぼ同一の文とを既存の代用語と比較することにより,時間的ドリフトを分析する。モデル性能は1つの新語が文中に導入されるとき、機械翻訳においてほぼ半減する。
参考スコア（独自算出の注目度）: 19.863120275409393
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The performance of Large Language Models (LLMs) degrades from the temporal drift between data used for model training and newer text seen during inference. One understudied avenue of language change causing data drift is the emergence of neologisms -- new word forms -- over time. We create a diverse resource of recent English neologisms by using several popular collection methods. We analyze temporal drift using neologisms by comparing sentences containing new words with near-identical sentences that replace neologisms with existing substitute words. Model performance is nearly halved in machine translation when a single neologism is introduced in a sentence. Motivated by these results, we construct a benchmark to evaluate LLMs' ability to generalize to neologisms with various natural language understanding tasks and model perplexity. Models with later knowledge cutoff dates yield lower perplexities and perform better in downstream tasks. LLMs are also affected differently based on the linguistic origins of words, indicating that neologisms are complex for static LLMs to address. We will release our benchmark and code for reproducing our experiments.
Abstract（参考訳）: 大規模言語モデル(LLM)の性能は、モデルトレーニングに使用されるデータと推論中に見られる新しいテキストの間の時間的ドリフトから低下する。データドリフトを引き起こす言語変更の未調査の道の1つは、新しい言葉形式であるネオロジズムの出現である。我々は、いくつかの一般的な収集手法を用いて、近年のイングランドのネオロジズムの多様な資源を創出する。我々は,新語を含む文と,新語を代替語に置き換えるほぼ同一の文とを比較して,新語を用いた時間的ドリフトの分析を行った。モデル性能は1つの新語が文中に導入されるとき、機械翻訳においてほぼ半減する。これらの結果から,様々な自然言語理解タスクとモデルパープレキシティを備えた新語に一般化するLLMの能力を評価するためのベンチマークを構築した。後続の知識カットオフのモデルでは、より難易度が低くなり、下流のタスクでより良く機能する。 LLMは単語の言語的起源にもとづいて異なる影響を受けており、静的LLMにはネオロジズムが複雑であることを示している。実験を再現するためのベンチマークとコードをリリースします。

関連論文リスト

Benchmarking Concept-Spilling Across Languages in LLMs [7.577675422356702]
大規模言語モデル(LLM)は言語間の優れた能力を示すが、他の言語からの表現に対する体系的なバイアスを示すことが多い。本稿では,言語間の多文語をモデルがどう扱うかを測定することで,多言語意味的ロバスト性を評価するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-18T19:28:26Z)
Visualising Information Flow in Word Embeddings with Diffusion Tensor Imaging [0.0]
言語モデル(LLM)が自然言語をどのように表現するかを理解することは、自然言語処理研究における中心的な課題である。本稿では,拡散テンソル画像(DTI)を単語埋め込みに適用することにより,自然言語表現における情報フローの分析と可視化を行う新しいツールを提案する。
論文参考訳（メタデータ） (2026-01-09T10:58:17Z)
Epistemic Diversity and Knowledge Collapse in Large Language Models [42.81169404715417]
大規模言語モデル(LLM)は、語彙的、意味的、スタイリスティックに同質なテキストを生成する傾向がある。これは知識崩壊のリスクを生じさせ、同種LLMは時間とともにアクセス可能な情報範囲の縮小を仲介する。 LLM出力における実世界のクレームの変動など、疫学の多様性を測定するための新しい手法を提案する。
論文参考訳（メタデータ） (2025-10-05T14:29:15Z)
Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [49.09746599881631]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。混乱点(CP)がこの現象の中心であることを示す。本研究は,多言語学習モデルとの比較分析により同定された少数の臨界ニューロンの編集が,混乱を著しく軽減することを示す。
論文参考訳（メタデータ） (2025-05-22T11:29:17Z)
Modern Models, Medieval Texts: A POS Tagging Study of Old Occitan [0.1979158763744267]
大規模言語モデル (LLM) は自然言語処理において顕著な能力を示した。本研究では,古オクシタンのPOSタグ付けにおけるオープンソースのLDMの性能について検討した。
論文参考訳（メタデータ） (2025-03-10T20:16:01Z)
Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。 Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文参考訳（メタデータ） (2024-06-28T17:03:51Z)
Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文参考訳（メタデータ） (2024-04-29T17:58:36Z)
The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。 Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文参考訳（メタデータ） (2023-11-16T09:35:50Z)
Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating Generalization Capacity of Language Models [18.874880342410876]
本稿では、時間的推測に焦点を当てた日本のベンチマークであるJampを紹介する。我々のデータセットには時間的推論パターンが含まれており、きめ細かい分析を行うことができます。時制フラグメントに基づいてデータセットを分割することにより,単言語/多言語LMの一般化能力を評価する。
論文参考訳（メタデータ） (2023-06-19T07:00:14Z)
Always Keep your Target in Mind: Studying Semantics and Improving Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文参考訳（メタデータ） (2022-06-07T16:16:19Z)
Do Not Fire the Linguist: Grammatical Profiles Help Language Models Detect Semantic Change [6.7485485663645495]
まず,10個のデータセット上での多言語ニューラル言語モデル(XLM-R)の性能を比較し,その性能を7つの言語で比較した。この結果から,XLM-Rによる文法プロファイルのアンサンブルにより,ほとんどのデータセットや言語における意味変化検出性能が向上することが示唆された。
論文参考訳（メタデータ） (2022-04-12T11:20:42Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
A Comparative Study of Lexical Substitution Approaches based on Neural Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文参考訳（メタデータ） (2020-05-29T18:43:22Z)
Morphological Word Segmentation on Agglutinative Languages for Neural Machine Translation [8.87546236839959]
ニューラル機械翻訳(NMT)のソース側における形態素単語分割法を提案する。形態学の知識を取り入れて、単語構造における言語情報や意味情報を保存し、訓練時の語彙サイズを小さくする。これは、他の自然言語処理(NLP)タスクのために、単語を集約言語に分割する前処理ツールとして利用することができる。
論文参考訳（メタデータ） (2020-01-02T10:05:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。