論文の概要: Large Language Models with Controllable Working Memory
- arxiv url: http://arxiv.org/abs/2211.05110v1
- Date: Wed, 9 Nov 2022 18:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 15:53:22.291454
- Title: Large Language Models with Controllable Working Memory
- Title(参考訳): 制御可能な作業メモリを備えた大規模言語モデル
- Authors: Daliang Li, Ankit Singh Rawat, Manzil Zaheer, Xin Wang, Michal
Lukasik, Andreas Veit, Felix Yu, Sanjiv Kumar
- Abstract要約: 大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
- 参考スコア(独自算出の注目度): 64.71038763708161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have led to a series of breakthroughs in natural
language processing (NLP), owing to their excellent understanding and
generation abilities. Remarkably, what further sets these models apart is the
massive amounts of world knowledge they internalize during pretraining. While
many downstream applications provide the model with an informational context to
aid its performance on the underlying task, how the model's world knowledge
interacts with the factual information presented in the context remains under
explored. As a desirable behavior, an LLM should give precedence to the context
whenever it contains task-relevant information that conflicts with the model's
memorized knowledge. This enables model predictions to be grounded in the
context, which can then be used to update or correct specific model predictions
without frequent retraining. By contrast, when the context is irrelevant to the
task, the model should ignore it and fall back on its internal knowledge. In
this paper, we undertake a first joint study of the aforementioned two
properties, namely controllability and robustness, in the context of LLMs. We
demonstrate that state-of-the-art T5 and PaLM (both pretrained and finetuned)
could exhibit poor controllability and robustness, which do not scale with
increasing model size. As a solution, we propose a novel method - Knowledge
Aware FineTuning (KAFT) - to strengthen both controllability and robustness by
incorporating counterfactual and irrelevant contexts to standard supervised
datasets. Our comprehensive evaluation showcases the utility of KAFT across
model architectures and sizes.
- Abstract(参考訳): 大規模言語モデル(LLM)は、その優れた理解と生成能力のために、自然言語処理(NLP)の一連のブレークスルーをもたらした。
注目すべきは、これらのモデルをさらに分けているのは、事前訓練中に内在する膨大な量の世界的知識だ。
多くのダウンストリームアプリケーションは、基礎となるタスクのパフォーマンスを補助する情報コンテキストをモデルに提供するが、モデルの世界知識がコンテキストで提示される事実情報とどのように相互作用するかはまだ検討されていない。
望ましい振る舞いとして、LLMは、モデルが記憶した知識と矛盾するタスク関連情報を含む場合、コンテキストに優先順位を与えるべきである。
これにより、モデル予測をコンテキストにグラウンド化することが可能になり、頻繁に再トレーニングすることなく、特定のモデル予測を更新または修正することができる。
対照的に、コンテキストがタスクと無関係である場合、モデルはそれを無視し、内部知識にフォールバックするべきである。
本稿では, 上記の2つの特性,すなわち可制御性と頑健性について, LLMの文脈での最初の共同研究を行う。
我々は,最先端のT5およびPaLM(どちらも事前訓練および微調整)が,モデルサイズの増加とともにスケールしない制御性と堅牢性を示すことを示した。
そこで本研究では,標準教師付きデータセットに非現実的・無関係なコンテキストを組み込むことにより,制御性とロバスト性を両立させる新しい手法であるKnowledge Aware FineTuning(KAFT)を提案する。
当社の総合評価では,kaftがモデルアーキテクチャとサイズにまたがる有用性を示す。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。
微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。
本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:35:16Z) - Estimating Knowledge in Large Language Models Without Generating a Single Token [12.913172023910203]
大規模言語モデル(LLM)における知識を評価するための現在の手法は、モデルをクエリし、生成した応答を評価する。
本研究では,モデルがテキストを生成する前に評価を行うことができるかどうかを問う。
様々なLLMを用いた実験では、内部の主題表現を訓練した単純なプローブであるKEENが、両方のタスクで成功することが示された。
論文 参考訳(メタデータ) (2024-06-18T14:45:50Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - Unsupervised Pre-training with Structured Knowledge for Improving
Natural Language Inference [22.648536283569747]
本研究では,事前学習モデルの異なるコンポーネントにおける構造化知識を活用するモデルを提案する。
以上の結果から,提案モデルは従来のBERTモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-08T21:28:12Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。