論文の概要: Derivational Morphology Reveals Analogical Generalization in Large Language Models
- arxiv url: http://arxiv.org/abs/2411.07990v1
- Date: Tue, 12 Nov 2024 18:15:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:19:24.579589
- Title: Derivational Morphology Reveals Analogical Generalization in Large Language Models
- Title(参考訳): 派生形態学が大規模言語モデルにおける解析的一般化を明らかにする
- Authors: Valentin Hofmann, Leonie Weissweiler, David Mortensen, Hinrich Schütze, Janet Pierrehumbert,
- Abstract要約: GPT-Jによる形容詞名化の言語的一般化にはルールが関係していることを示し,その基盤となるメカニズムとして,記憶されている例に類似した操作を提案する。
本研究は,LLMの言語一般化において,従来考えられていたよりも類似過程が大きな役割を担っていることを示唆する。
- 参考スコア(独自算出の注目度): 47.4909843308463
- License:
- Abstract: What mechanisms underlie linguistic generalization in large language models (LLMs)? This question has attracted considerable attention, with most studies analyzing the extent to which the language skills of LLMs resemble rules. As of yet, it is not known whether linguistic generalization in LLMs could equally well be explained as the result of analogical processes, which can be formalized as similarity operations on stored exemplars. A key shortcoming of prior research is its focus on linguistic phenomena with a high degree of regularity, for which rule-based and analogical approaches make the same predictions. Here, we instead examine derivational morphology, specifically English adjective nominalization, which displays notable variability. We introduce a new method for investigating linguistic generalization in LLMs: focusing on GPT-J, we fit cognitive models that instantiate rule-based and analogical learning to the LLM training data and compare their predictions on a set of nonce adjectives with those of the LLM, allowing us to draw direct conclusions regarding underlying mechanisms. As expected, rule-based and analogical models explain the predictions of GPT-J equally well for adjectives with regular nominalization patterns. However, for adjectives with variable nominalization patterns, the analogical model provides a much better match. Furthermore, GPT-J's behavior is sensitive to the individual word frequencies, even for regular forms, a behavior that is consistent with an analogical account of regular forms but not a rule-based one. These findings refute the hypothesis that GPT-J's linguistic generalization on adjective nominalization involves rules, suggesting similarity operations on stored exemplars as the underlying mechanism. Overall, our study suggests that analogical processes play a bigger role in the linguistic generalization of LLMs than previously thought.
- Abstract(参考訳): 大規模言語モデル(LLM)における言語一般化のメカニズム
この問題は大きな注目を集めており、ほとんどの研究はLLMの言語スキルが規則に類似する程度を分析している。
今のところ、LLMの言語一般化が類似プロセスの結果として等しく説明できるかどうかは分かっていないが、これは記憶された例に類似した操作として定式化することができる。
先行研究の重要な欠点は、規則に基づくアプローチと類似的なアプローチが同じ予測を行うような、高い規則性の言語現象に焦点をあてることである。
そこで本研究では,派生形態,特に英語形容詞の名詞化について検討する。
GPT-Jに着目し,ルールベースおよび類似学習をLLMトレーニングデータに適合させる認知モデルを導入し,それらの予測を名詞形容詞のセットとLLMのセットと比較することにより,基礎となるメカニズムに関する直接的な結論を導き出すことができる。
予想通り、規則に基づく類推モデルは、正規化パターンを持つ形容詞に対して同様にGPT-Jの予測を説明する。
しかし、可変な名詞化パターンを持つ形容詞に対しては、類似モデルの方がずっとよいマッチングを提供する。
さらに、GPT-Jの振舞いは、正規形であっても個々の単語周波数に敏感である。
これらの結果は、GPT-Jの形容詞名化に関する言語一般化には規則が伴うという仮説を否定し、記憶されている例に類似した操作を基礎となるメカニズムとして提案する。
本研究は,LLMの言語一般化において,従来考えられていたよりも類推過程が大きな役割を担っていることを示唆する。
関連論文リスト
- Large Language Models are Easily Confused: A Quantitative Metric, Security Implications and Typological Analysis [5.029635172046762]
言語融合(Language Confusion)とは、大言語モデル(LLM)が所望の言語でもなく、文脈的に適切な言語でもテキストを生成する現象である。
我々は,この混乱を計測し定量化するために設計された,新しい計量であるLanguage Confusion Entropyを導入する。
論文 参考訳(メタデータ) (2024-10-17T05:43:30Z) - Black Big Boxes: Do Language Models Hide a Theory of Adjective Order? [5.395055685742631]
英語や他の言語では、複雑な名詞句の複数の形容詞は、多くの言語理論の標的となった複雑な順序付けパターンを示している。
本稿では,人体における形容詞順選好(AOP)を説明するために設計された既存の仮説を概観し,言語モデルにおけるAOPを学習するための設定を開発する。
理論言語学で特定された因子によって生成される予測よりも,全てのモデルの予測が人間のAOPにずっと近いことが判明した。
論文 参考訳(メタデータ) (2024-07-02T10:29:09Z) - On the Tip of the Tongue: Analyzing Conceptual Representation in Large
Language Models with Reverse-Dictionary Probe [36.65834065044746]
我々は、言語記述に暗示される対象概念の用語を生成するために、文脈内学習を用いてモデルを誘導する。
実験結果から,逆ディファレンシャルタスクによって探索された概念推論能力は,モデルの一般的な推論性能を予測することが示唆された。
論文 参考訳(メタデータ) (2024-02-22T09:45:26Z) - How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering [52.86931192259096]
知識ベース質問回答(KBQA)は,知識ベースにおける事実に基づいた自然言語質問への回答を目的としている。
最近の研究は、論理形式生成のための大規模言語モデル(LLM)の機能を活用して性能を向上させる。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - How Abstract Is Linguistic Generalization in Large Language Models?
Experiments with Argument Structure [2.530495315660486]
本研究では,事前学習したトランスフォーマーに基づく大規模言語モデルがコンテキスト間の関係を表現する程度について検討する。
LLMは、関連する文脈間の新しい名詞引数の分布を一般化する上で、よく機能することがわかった。
しかし、LCMは事前学習中に観測されていない関連するコンテキスト間の一般化に失敗する。
論文 参考訳(メタデータ) (2023-11-08T18:58:43Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。