論文の概要: Physics of Language Models: Part 3.2, Knowledge Manipulation
- arxiv url: http://arxiv.org/abs/2309.14402v1
- Date: Mon, 25 Sep 2023 17:50:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 16:39:04.559777
- Title: Physics of Language Models: Part 3.2, Knowledge Manipulation
- Title(参考訳): 言語モデルの物理:その3.2, 知識操作
- Authors: Zeyuan Allen-Zhu and Yuanzhi Li
- Abstract要約: 本稿では,言語モデルが推論中に記憶された知識を操作する能力について考察する。
検索(例:A属性X)、分類(例:A属性Xが偶数か奇数か)、比較(例:A属性XがBより大きいか?)、逆探索(例:A属性Xより大きいか?
- 参考スコア(独自算出の注目度): 61.05762942335984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models can store vast amounts of factual knowledge, but their
ability to use this knowledge for logical reasoning remains questionable. This
paper explores a language model's ability to manipulate its stored knowledge
during inference. We focus on four manipulation types: retrieval (e.g., "What
is person A's attribute X"), classification (e.g., "Is A's attribute X even or
odd?"), comparison (e.g., "Is A greater than B in attribute X?") and inverse
search (e.g., "Which person's attribute X equals T?")
We observe that pre-trained language models like GPT2/3/4 excel in knowledge
retrieval but struggle with simple classification or comparison tasks unless
Chain of Thoughts (CoTs) are employed during both training and inference. They
also perform poorly in inverse knowledge search, irrespective of the prompts.
Our primary contribution is a synthetic dataset for a controlled experiment
that confirms these inherent weaknesses: a language model cannot efficiently
manipulate knowledge from pre-training data, even when such knowledge is
perfectly stored and fully extractable in the models, and despite adequate
instruct fine-tuning.
- Abstract(参考訳): 言語モデルは膨大な事実知識を格納することができるが、論理的推論にこの知識を使用する能力は疑問の余地がある。
本稿では,言語モデルが推論中に記憶された知識を操作する能力について考察する。
検索(例: "what is person a's attribute x")、分類(例: "is a's attribute x even or odd?")、比較(例: "is greater than b in attribute x?")、逆探索(例: "who person's attribute x equals t?")の4つの操作型に注目し、gpt2/3/4のような事前学習済み言語モデルは知識検索において優れているが、思考連鎖(cots)がトレーニングと推論の両方で採用されない限り、単純な分類や比較タスクに苦しむことを観察する。
また、プロンプトに関係なく、逆知識探索では不十分である。
言語モデルは、その知識がモデルに完全に保存され、完全に抽出可能で、適切に指示された微調整にもかかわらず、事前訓練されたデータから知識を効率的に操作することはできない。
関連論文リスト
- Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws [51.68385617116854]
スケーリング法則は、言語モデルのサイズと能力の関係を記述している。
我々は、ウィキペディアのページから(米国、首都ワシントンD.C.など)ドメインとして表される事実知識に焦点を当てる。
7Bモデルは、英語のウィキペディアと教科書を合わせた14Bビットの知識を保存できる。
論文 参考訳(メタデータ) (2024-04-08T11:11:31Z) - Are Emergent Abilities in Large Language Models just In-Context Learning? [46.561464069450444]
創発的能力を説明する新しい理論を提示する。
以上の結果から,創発能力は真に創発的ではなく,文脈内学習,モデル記憶,言語知識の組み合わせによるものであることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T20:54:11Z) - The KITMUS Test: Evaluating Knowledge Integration from Multiple Sources
in Natural Language Understanding Systems [87.3207729953778]
我々は、データセット上で最先端のコア参照解決モデルを評価する。
いくつかのモデルは、事前訓練時間と推論時間の両方で観察された知識について、オンザフライで推論するのに苦労している。
それでも、最高のパフォーマンスモデルでさえ、推論時にのみ提示される知識を確実に統合するのは難しいようです。
論文 参考訳(メタデータ) (2022-12-15T23:26:54Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Zero-shot Commonsense Question Answering with Cloze Translation and
Consistency Optimization [20.14487209460865]
自然質問をクローズスタイルの文に翻訳できる4つの翻訳手法について検討する。
提案手法は知識ベース改良モデルと相補的なデータセットであり,それらを組み合わせることで,最先端のゼロショット性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-01T07:12:49Z) - Generated Knowledge Prompting for Commonsense Reasoning [53.88983683513114]
本稿では,汎用的なプロンプト形式を用いて,言語モデルから直接知識文を生成することを提案する。
このアプローチは、4つのコモンセンス推論タスクにおいて、既製の言語モデルと微調整された言語モデルの両方のパフォーマンスを向上させる。
特に、モデルが生成した知識を使用することで、予測が改善できることが分かる。
論文 参考訳(メタデータ) (2021-10-15T21:58:03Z) - BERT is to NLP what AlexNet is to CV: Can Pre-Trained Language Models
Identify Analogies? [35.381345454627]
アナログを識別する教師なしタスクにおいて,トランスフォーマーに基づく言語モデルの性能を解析する。
オフザシェルフ言語モデルは、ある程度の類似を識別できるが、抽象的かつ複雑な関係に苦しむ。
本研究は,学習済み言語モデルがどのように抽象意味関係に関する知識を捉えているか,その程度について,今後の研究に向けて重要な疑問を提起するものである。
論文 参考訳(メタデータ) (2021-05-11T11:38:49Z) - Knowledge-Aware Language Model Pretraining [29.56904859722379]
トランスフォーマーアーキテクチャを変更することなく、言語モデルの事前学習に知識認識を取り入れる。
LAMA知識探索タスクにおける言語モデリング精度の向上,事実的正当性,エッジ探索による隠れ表現の意味性について検討した。
我々の知識認識言語モデル(KALM)は、GPT-2モデルの代替となる。
論文 参考訳(メタデータ) (2020-06-29T06:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。