論文の概要: Linear Correlation in LM's Compositional Generalization and Hallucination
- arxiv url: http://arxiv.org/abs/2502.04520v1
- Date: Thu, 06 Feb 2025 21:44:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:57:01.928108
- Title: Linear Correlation in LM's Compositional Generalization and Hallucination
- Title(参考訳): LMの構成一般化と幻覚における線形相関
- Authors: Letian Peng, Chenyang An, Shibo Hao, Chengyu Dong, Jingbo Shang,
- Abstract要約: 言語モデル(LM)の一般化は、汎用知能の可能性と基本的な知識構成との闘いを対比して、活発に議論されている。
本稿では,知識合成におけるLMの線形相関現象を明らかにする。
- 参考スコア(独自算出の注目度): 32.6097501601695
- License:
- Abstract: The generalization of language models (LMs) is undergoing active debates, contrasting their potential for general intelligence with their struggles with basic knowledge composition (e.g., reverse/transition curse). This paper uncovers the phenomenon of linear correlations in LMs during knowledge composition. For explanation, there exists a linear transformation between certain related knowledge that maps the next token prediction logits from one prompt to another, e.g., "X lives in the city of" $\rightarrow$ "X lives in the country of" for every given X. This mirrors the linearity in human knowledge composition, such as Paris $\rightarrow$ France. Our findings indicate that the linear transformation is resilient to large-scale fine-tuning, generalizing updated knowledge when aligned with real-world relationships, but causing hallucinations when it deviates. Empirical results suggest that linear correlation can serve as a potential identifier of LM's generalization. Finally, we show such linear correlations can be learned with a single feedforward network and pre-trained vocabulary representations, indicating LM generalization heavily relies on the latter.
- Abstract(参考訳): 言語モデル(LM)の一般化は、基本的な知識構成(例:リバース/トランジションの呪い)との闘いとは対照的に、汎用知能に対する可能性について活発に議論されている。
本稿では,知識合成におけるLMの線形相関現象を明らかにする。
説明のために、ある関連する知識の間に線形変換があり、あるプロンプトから別のプロンプトへ次のトークン予測ロジットをマッピングする。例えば、"X lives in the city of $\rightarrow$ "X lives in the country of" for each X。
その結果,線形変換は大規模微調整に耐性があり,実世界の関係に整合した際の知識の更新を一般化するが,幻覚を引き起こすことが示唆された。
経験的結果は、線形相関がLMの一般化の潜在的な識別子として役立つことを示唆している。
最後に、そのような線形相関は、単一のフィードフォワードネットワークと事前学習された語彙表現で学習できることを示し、LM一般化は後者に大きく依存していることを示す。
関連論文リスト
- Generalization from Starvation: Hints of Universality in LLM Knowledge Graph Learning [8.025148264640967]
グラフ学習中にニューラルネットワークが知識をどのように表現するかを検討する。
我々は普遍性のヒントを見つけ、同値表現は様々なモデルサイズで学習される。
これらのアトラクタ表現は、一般化を目に見えない例に最適化することを示す。
論文 参考訳(メタデータ) (2024-10-10T16:23:42Z) - Rule Extrapolation in Language Models: A Study of Compositional Generalization on OOD Prompts [14.76420070558434]
ルール外挿は、プロンプトが少なくとも1つのルールに違反するOODシナリオを記述する。
規則の交わりによって定義される形式言語に焦点を当てる。
我々はアルゴリズム情報理論に先立ってソロモノフに触発された規則外挿の規範的理論の最初の石を配置した。
論文 参考訳(メタデータ) (2024-09-09T22:36:35Z) - SememeLM: A Sememe Knowledge Enhanced Method for Long-tail Relation Representation [21.973114867079996]
文脈を使わずに単語間の関係を識別することは困難である。
既存の言語モデル(LM)に基づくアプローチでは、LMの豊富な知識を利用して関係のセマンティックな特徴を強化する。
本稿では,長期関係の表現性を高めるために,セメム知識向上手法(SememeLM)を提案する。
論文 参考訳(メタデータ) (2024-06-13T12:42:49Z) - What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文 参考訳(メタデータ) (2024-06-06T17:34:24Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - Retrieve Only When It Needs: Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models [68.91592125175787]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。
本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z) - Linearity of Relation Decoding in Transformer Language Models [82.47019600662874]
トランスフォーマー言語モデル(LM)で符号化された知識の多くは、関係性の観点から表現することができる。
関係のサブセットに対して、この計算は対象表現上の1つの線形変換によってよく近似されることを示す。
論文 参考訳(メタデータ) (2023-08-17T17:59:19Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Do Language Models Perform Generalizable Commonsense Inference? [38.80762719409759]
本稿では,LMが一般化可能なコモンセンス推論を行う能力について分析する。
適応されたLMは、目に見えない対象によく一般化するが、新しい対象にはあまり当てはまらない。
論文 参考訳(メタデータ) (2021-06-22T04:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。