論文の概要: Physics of Language Models: Part 3.2, Knowledge Manipulation
- arxiv url: http://arxiv.org/abs/2309.14402v1
- Date: Mon, 25 Sep 2023 17:50:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 16:39:04.559777
- Title: Physics of Language Models: Part 3.2, Knowledge Manipulation
- Title(参考訳): 言語モデルの物理:その3.2, 知識操作
- Authors: Zeyuan Allen-Zhu and Yuanzhi Li
- Abstract要約: 本稿では,言語モデルが推論中に記憶された知識を操作する能力について考察する。
検索(例:A属性X)、分類(例:A属性Xが偶数か奇数か)、比較(例:A属性XがBより大きいか?)、逆探索(例:A属性Xより大きいか?
- 参考スコア(独自算出の注目度): 61.05762942335984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models can store vast amounts of factual knowledge, but their
ability to use this knowledge for logical reasoning remains questionable. This
paper explores a language model's ability to manipulate its stored knowledge
during inference. We focus on four manipulation types: retrieval (e.g., "What
is person A's attribute X"), classification (e.g., "Is A's attribute X even or
odd?"), comparison (e.g., "Is A greater than B in attribute X?") and inverse
search (e.g., "Which person's attribute X equals T?")
We observe that pre-trained language models like GPT2/3/4 excel in knowledge
retrieval but struggle with simple classification or comparison tasks unless
Chain of Thoughts (CoTs) are employed during both training and inference. They
also perform poorly in inverse knowledge search, irrespective of the prompts.
Our primary contribution is a synthetic dataset for a controlled experiment
that confirms these inherent weaknesses: a language model cannot efficiently
manipulate knowledge from pre-training data, even when such knowledge is
perfectly stored and fully extractable in the models, and despite adequate
instruct fine-tuning.
- Abstract(参考訳): 言語モデルは膨大な事実知識を格納することができるが、論理的推論にこの知識を使用する能力は疑問の余地がある。
本稿では,言語モデルが推論中に記憶された知識を操作する能力について考察する。
検索(例: "what is person a's attribute x")、分類(例: "is a's attribute x even or odd?")、比較(例: "is greater than b in attribute x?")、逆探索(例: "who person's attribute x equals t?")の4つの操作型に注目し、gpt2/3/4のような事前学習済み言語モデルは知識検索において優れているが、思考連鎖(cots)がトレーニングと推論の両方で採用されない限り、単純な分類や比較タスクに苦しむことを観察する。
また、プロンプトに関係なく、逆知識探索では不十分である。
言語モデルは、その知識がモデルに完全に保存され、完全に抽出可能で、適切に指示された微調整にもかかわらず、事前訓練されたデータから知識を効率的に操作することはできない。
関連論文リスト
- Physics of Language Models: Part 3.1, Knowledge Storage and Extraction [61.05762942335984]
大規模言語モデル(LLM)は膨大な量の世界の知識を格納することができ、しばしば質問応答によって抽出できる。
モデルが知識を抽出する能力と,トレーニングデータの多様な多様性尺度との間には,強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-09-25T17:37:20Z) - Decouple knowledge from parameters for plug-and-play language modeling [77.5601135412186]
差別化可能なプラグインメモリ(DPM)を備えた事前学習モデルPlugLMを導入する。
鍵となる直感は、編集可能でスケーラブルなキーバリューメモリで、知識ストレージをモデルパラメータから切り離すことである。
PlugLMは4つのドメインで平均3.95のF1改善を実現している。
論文 参考訳(メタデータ) (2023-05-19T10:01:55Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Zero-shot Commonsense Question Answering with Cloze Translation and
Consistency Optimization [20.14487209460865]
自然質問をクローズスタイルの文に翻訳できる4つの翻訳手法について検討する。
提案手法は知識ベース改良モデルと相補的なデータセットであり,それらを組み合わせることで,最先端のゼロショット性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-01T07:12:49Z) - Generated Knowledge Prompting for Commonsense Reasoning [53.88983683513114]
本稿では,汎用的なプロンプト形式を用いて,言語モデルから直接知識文を生成することを提案する。
このアプローチは、4つのコモンセンス推論タスクにおいて、既製の言語モデルと微調整された言語モデルの両方のパフォーマンスを向上させる。
特に、モデルが生成した知識を使用することで、予測が改善できることが分かる。
論文 参考訳(メタデータ) (2021-10-15T21:58:03Z) - Does External Knowledge Help Explainable Natural Language Inference?
Automatic Evaluation vs. Human Ratings [35.2513653224183]
自然言語推論(NLI)は、常識知識を学習し応用するためのモデルを必要とする。
外部知識が説明能力を向上させることができるかどうかを考察する。
我々はこれまでで最大かつ最もきめ細かいNLIクラウドソーシング研究を行っている。
論文 参考訳(メタデータ) (2021-09-16T09:56:20Z) - BERT is to NLP what AlexNet is to CV: Can Pre-Trained Language Models
Identify Analogies? [35.381345454627]
アナログを識別する教師なしタスクにおいて,トランスフォーマーに基づく言語モデルの性能を解析する。
オフザシェルフ言語モデルは、ある程度の類似を識別できるが、抽象的かつ複雑な関係に苦しむ。
本研究は,学習済み言語モデルがどのように抽象意味関係に関する知識を捉えているか,その程度について,今後の研究に向けて重要な疑問を提起するものである。
論文 参考訳(メタデータ) (2021-05-11T11:38:49Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z) - REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文 参考訳(メタデータ) (2020-02-10T18:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。