論文の概要: ItD: Large Language Models Can Teach Themselves Induction through
Deduction
- arxiv url: http://arxiv.org/abs/2403.05789v1
- Date: Sat, 9 Mar 2024 04:20:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 12:20:43.147211
- Title: ItD: Large Language Models Can Teach Themselves Induction through
Deduction
- Title(参考訳): ItD:大規模言語モデルでは、推論を通じてテーマを学習できる
- Authors: Wangtao Sun, Haotian Xu, Xuanqing Yu, Pei Chen, Shizhu He, Jun Zhao,
Kang Liu
- Abstract要約: そこで我々は, LLM が推論による誘導を学べるように, 推論による誘導(ItD)という新しい枠組みを提案する。
ItDは、誘導データを生成するデダクティブデータ生成モジュールと、LLMの微調整と復号を最適化するネイブベイズ誘導モジュールの2つの主要コンポーネントで構成されている。
実験の結果,2つのインダクション・ベンチマークにおけるITDの有効性が示され,従来の最先端技術と比較して36%,10%の相対的な性能向上が達成された。
- 参考スコア(独自算出の注目度): 27.75250905887343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Large Language Models (LLMs) are showing impressive performance on a
wide range of Natural Language Processing tasks, researchers have found that
they still have limited ability to conduct induction. Recent works mainly adopt
``post processes'' paradigms to improve the performance of LLMs on induction
(e.g., the hypothesis search & refinement methods), but their performance is
still constrained by the inherent inductive capability of the LLMs. In this
paper, we propose a novel framework, Induction through Deduction (ItD), to
enable the LLMs to teach themselves induction through deduction. The ItD
framework is composed of two main components: a Deductive Data Generation
module to generate induction data and a Naive Bayesian Induction module to
optimize the fine-tuning and decoding of LLMs. Our empirical results showcase
the effectiveness of ItD on two induction benchmarks, achieving relative
performance improvement of 36% and 10% compared with previous state-of-the-art,
respectively. Our ablation study verifies the effectiveness of two key modules
of ItD. We also verify the effectiveness of ItD across different LLMs and
deductors. The data and code of this paper can be found at
https://anonymous.4open.science/r/ItD-E844.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて優れたパフォーマンスを示しているが、研究者らは、まだ誘導を行う能力が限られていることを発見した。
最近の研究は、主に「ポストプロセス」パラダイムを採用し、誘導におけるLLMの性能を改善する(例えば、仮説探索と改善法)が、その性能はLLMの固有の誘導能力に制約されている。
本稿では, LLMが推論による誘導を学べるように, 推論による誘導(ItD)という新しい枠組みを提案する。
ItDフレームワークは2つの主要なコンポーネントで構成されている: 誘導データを生成するデダクティブデータ生成モジュールと、LLMの微調整と復号を最適化するネイブベイズ誘導モジュールである。
実験の結果,2つの誘導ベンチマークにおけるitdの有効性が示され,従来の技術と比較して,それぞれ36%,10%の相対的性能向上を達成できた。
本研究は, itdの2つのキーモジュールの有効性を検証する。
また, 異なるLLMおよびデダクタにおける ItD の有効性を検証する。
この論文のデータとコードはhttps://anonymous.4open.science/r/itd-e844にある。
関連論文リスト
- MEND: Meta dEmonstratioN Distillation for Efficient and Effective
In-Context Learning [9.271196993624944]
大規模言語モデル(LLM)は、与えられたテスト入力と少数のインプット・アウトプットペア(デモ)を同時に予測する。
既存の解は、長い実演をコンパクトなベクトルに蒸留しようとする。
本稿では,メタdEmonstratioN蒸留(MEND)について述べる。そこでは,言語モデルが,新しい下流タスクを再学習することなく,任意の長い実演をベクトルに蒸留することを学ぶ。
論文 参考訳(メタデータ) (2024-03-11T17:03:04Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Learn To be Efficient: Build Structured Sparsity in Large Language
Models [15.746754531419917]
大きな言語モデル(LLM)は、その10億レベルのパラメータで驚くべき成功を収めていますが、高い推論オーバーヘッドを引き起こします。
本稿では,Learning-To-Efficient (LTE) アルゴリズムを提案する。
実験の結果、LTEはスパーシリティとタスクパフォーマンスのトレードオフを良くすることがわかった。
論文 参考訳(メタデータ) (2024-02-09T01:18:16Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Joint Prompt Optimization of Stacked LLMs using Variational Inference [66.04409787899583]
大規模言語モデル(LLM)は、列上の分布への計算マッピングシーケンスの原子単位と見なすことができる。
そのような2つのレイヤを積み重ねて1つのレイヤの出力を次のレイヤに供給することで、Deep Language Network(DLN)を得る。
DLN-2は単一層よりも高い性能に到達できることを示し、GPT-4に匹敵する性能に達することを約束する。
論文 参考訳(メタデータ) (2023-06-21T18:45:56Z) - Deduction under Perturbed Evidence: Probing Student Simulation
Capabilities of Large Language Models [27.943334687742244]
我々は、最も先進的なGPTモデルでさえ、操作された事実を推論するのに苦労していることを示す。
実世界のアプリケーションにおけるLLMの性能を理解するために,本研究は実践的な意味を持つ。
論文 参考訳(メタデータ) (2023-05-23T20:26:03Z) - A Cohesive Distillation Architecture for Neural Language Models [0.0]
自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に増加することである。
本研究では,大規模モデルの効率的な代替手段を提供するために,知識蒸留法(KD)について検討する。
論文 参考訳(メタデータ) (2023-01-12T08:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。