論文の概要: Enabling Large Language Models to Learn from Rules
- arxiv url: http://arxiv.org/abs/2311.08883v2
- Date: Fri, 16 Feb 2024 14:07:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 19:55:14.453147
- Title: Enabling Large Language Models to Learn from Rules
- Title(参考訳): ルールから学ぶための大規模言語モデルの実現
- Authors: Wenkai Yang, Yankai Lin, Jie Zhou, Jirong Wen
- Abstract要約: 私たちは、人間がルールから学習することで、新しいタスクや知識を別の方法で学習できることにインスピレーションを受けています。
まず, LLMの強い文脈内能力を用いて, テキスト規則から知識を抽出する規則蒸留法を提案する。
実験の結果, LLMをルールから学習させることは, サンプルサイズと一般化能力の両方において, サンプルベース学習よりもはるかに効率的であることがわかった。
- 参考スコア(独自算出の注目度): 99.16680531261987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown incredible performance in completing
various real-world tasks. The current knowledge learning paradigm of LLMs is
mainly based on learning from examples, in which LLMs learn the internal rule
implicitly from a certain number of supervised examples. However, this learning
paradigm may not well learn those complicated rules, especially when the
training examples are limited. We are inspired that humans can learn the new
tasks or knowledge in another way by learning from rules. That is, humans can
learn new tasks or grasps new knowledge quickly and generalize well given only
a detailed rule and a few optional examples. Therefore, in this paper, we aim
to explore the feasibility of this new learning paradigm, which targets on
encoding rule-based knowledge into LLMs. We further propose rule distillation,
which first uses the strong in-context abilities of LLMs to extract the
knowledge from the textual rules, and then explicitly encode the knowledge into
the parameters of LLMs by learning from the above in-context signals produced
inside the model. Our experiments show that making LLMs learn from rules by our
method is much more efficient than example-based learning in both the sample
size and generalization ability. Warning: This paper may contain examples with
offensive content.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な現実世界のタスクを完了させるのに素晴らしいパフォーマンスを示している。
LLMの現在の知識学習パラダイムは主に、LLMが一定の数の教師付き例から暗黙的に内部ルールを学ぶ例から学ぶことに基づいている。
しかし、この学習パラダイムは、特にトレーニング例が限定されている場合、これらの複雑なルールを十分に学ばないかもしれない。
私たちは、人間がルールから学習することで、新しいタスクや知識を別の方法で学習できることにインスピレーションを受けています。
つまり、人間が新しいタスクを学習したり、新しい知識を素早く把握したり、詳細なルールといくつかのオプションの例だけをうまく一般化することができる。
そこで本稿では,ルールに基づく知識をllmにエンコードすることを目的とした,この新しい学習パラダイムの実現可能性について検討する。
さらに, LLMの強いコンテキスト内能力を用いて, テキストルールから知識を抽出し, モデル内で生成したコンテキスト内信号から学習することで, LLMのパラメータに明示的に知識をエンコードするルール蒸留を提案する。
実験の結果, LLMをルールから学習させることは, サンプルサイズと一般化能力の両方において, サンプルベース学習よりもはるかに効率的であることがわかった。
警告: 本論文は攻撃的な内容の例を含むことができる。
関連論文リスト
- Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - See the Unseen: Better Context-Consistent Knowledge-Editing by Noises [73.54237379082795]
知識編集が大規模言語モデル(LLM)の知識を更新
既存の作業はこの特性を無視し、編集には一般化が欠けている。
実験により、異なる文脈がLLMに与える影響は、同じ知識を思い出す際にガウス的な分布に従うことが判明した。
論文 参考訳(メタデータ) (2024-01-15T09:09:14Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Supervised Knowledge Makes Large Language Models Better In-context
Learners [97.71733265438044]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Knowledge Solver: Teaching LLMs to Search for Domain Knowledge from
Knowledge Graphs [19.0797968186656]
大規模言語モデル(LLM)は汎用的であり、その創発的能力と一般化性のために異なるタスクを解くことができる。
以前の研究では、グラフニューラルネットワーク(GNN)のような追加モジュールは、外部の知識ベースから取得した知識に基づいて訓練されている。
論文 参考訳(メタデータ) (2023-09-06T15:55:01Z) - Give Us the Facts: Enhancing Large Language Models with Knowledge Graphs
for Fact-aware Language Modeling [34.59678835272862]
代表的大規模言語モデル(LLM)であるChatGPTは、その強力な創発的能力のために注目されている。
本稿では,知識グラフ強化大言語モデル(KGLLM)によるLLMの強化を提案する。
KGLLMはLLMの事実推論能力を高めるソリューションを提供し、LLM研究のための新たな道を開く。
論文 参考訳(メタデータ) (2023-06-20T12:21:06Z) - Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond [48.70557995528463]
このガイドは、研究者や実践者が大規模言語モデルを扱うための貴重な洞察とベストプラクティスを提供することを目的としている。
実世界のシナリオにおける LLM の実用的応用と限界を説明するために, 様々なユースケースと非利用事例を提示する。
論文 参考訳(メタデータ) (2023-04-26T17:52:30Z) - Large Language Models are Few-Shot Summarizers: Multi-Intent Comment
Generation via In-Context Learning [34.006227676170504]
本研究では,大規模言語モデル(LLM)を用いて,開発者の多様な意図を満たすコメントを生成することの実現可能性について検討する。
2つの大規模なデータセットの実験は、私たちの洞察の理論的根拠を示しています。
論文 参考訳(メタデータ) (2023-04-22T12:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。