論文の概要: ItD: Large Language Models Can Teach Themselves Induction through
Deduction
- arxiv url: http://arxiv.org/abs/2403.05789v1
- Date: Sat, 9 Mar 2024 04:20:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 12:20:43.147211
- Title: ItD: Large Language Models Can Teach Themselves Induction through
Deduction
- Title(参考訳): ItD:大規模言語モデルでは、推論を通じてテーマを学習できる
- Authors: Wangtao Sun, Haotian Xu, Xuanqing Yu, Pei Chen, Shizhu He, Jun Zhao,
Kang Liu
- Abstract要約: そこで我々は, LLM が推論による誘導を学べるように, 推論による誘導(ItD)という新しい枠組みを提案する。
ItDは、誘導データを生成するデダクティブデータ生成モジュールと、LLMの微調整と復号を最適化するネイブベイズ誘導モジュールの2つの主要コンポーネントで構成されている。
実験の結果,2つのインダクション・ベンチマークにおけるITDの有効性が示され,従来の最先端技術と比較して36%,10%の相対的な性能向上が達成された。
- 参考スコア(独自算出の注目度): 27.75250905887343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Large Language Models (LLMs) are showing impressive performance on a
wide range of Natural Language Processing tasks, researchers have found that
they still have limited ability to conduct induction. Recent works mainly adopt
``post processes'' paradigms to improve the performance of LLMs on induction
(e.g., the hypothesis search & refinement methods), but their performance is
still constrained by the inherent inductive capability of the LLMs. In this
paper, we propose a novel framework, Induction through Deduction (ItD), to
enable the LLMs to teach themselves induction through deduction. The ItD
framework is composed of two main components: a Deductive Data Generation
module to generate induction data and a Naive Bayesian Induction module to
optimize the fine-tuning and decoding of LLMs. Our empirical results showcase
the effectiveness of ItD on two induction benchmarks, achieving relative
performance improvement of 36% and 10% compared with previous state-of-the-art,
respectively. Our ablation study verifies the effectiveness of two key modules
of ItD. We also verify the effectiveness of ItD across different LLMs and
deductors. The data and code of this paper can be found at
https://anonymous.4open.science/r/ItD-E844.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて優れたパフォーマンスを示しているが、研究者らは、まだ誘導を行う能力が限られていることを発見した。
最近の研究は、主に「ポストプロセス」パラダイムを採用し、誘導におけるLLMの性能を改善する(例えば、仮説探索と改善法)が、その性能はLLMの固有の誘導能力に制約されている。
本稿では, LLMが推論による誘導を学べるように, 推論による誘導(ItD)という新しい枠組みを提案する。
ItDフレームワークは2つの主要なコンポーネントで構成されている: 誘導データを生成するデダクティブデータ生成モジュールと、LLMの微調整と復号を最適化するネイブベイズ誘導モジュールである。
実験の結果,2つの誘導ベンチマークにおけるitdの有効性が示され,従来の技術と比較して,それぞれ36%,10%の相対的性能向上を達成できた。
本研究は, itdの2つのキーモジュールの有効性を検証する。
また, 異なるLLMおよびデダクタにおける ItD の有効性を検証する。
この論文のデータとコードはhttps://anonymous.4open.science/r/itd-e844にある。
関連論文リスト
- Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - VaiBot: Shuttle Between the Instructions and Parameters of Large Language Models [22.676819780878198]
本稿では、推論タスクと帰納タスクの両方を均一にモデル化し、学習し、推論するように設計された、VAEとVIBを統合したニューラルネットワークフレームワークであるVaiBotを提案する。
VaiBotが既存のベースラインメソッドと同等に動作し、インダクティブ能力でそれらをはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-04T13:36:54Z) - Interpretable Language Modeling via Induction-head Ngram Models [74.26720927767398]
誘導ヘッドngramモデル(Induction-Gram)を提案する。
この誘導ヘッドは、カスタムのニューラル類似度メトリックを使用して、モデルの入力コンテキストを効率的に検索し、潜在的に次の単語補完を行う。
実験により,本手法はベースラインの解釈可能なモデルよりも,単語の次単語予測を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-10-31T12:33:26Z) - MIRAGE: Evaluating and Explaining Inductive Reasoning Process in Language Models [19.81485079689837]
帰納的および帰納的段階における大規模言語モデルの能力を評価する。
モデルが正しい帰納的規則を使わずに常に正しい推論を行う傾向があることが分かる。
帰納的推論プロセスでは、モデルは機能空間における現在のテスト例に近い観察された事実に焦点を当てる傾向があります。
論文 参考訳(メタデータ) (2024-10-12T14:12:36Z) - Rethinking Semantic Parsing for Large Language Models: Enhancing LLM Performance with Semantic Hints [20.844061807562436]
本稿では,意味的ヒントをプロンプト内に埋め込む新しいプロンプト手法であるSENSEを提案する。
実験の結果、SENSE は様々なタスクで LLM のパフォーマンスを継続的に改善していることがわかった。
論文 参考訳(メタデータ) (2024-09-22T14:35:09Z) - Inductive or Deductive? Rethinking the Fundamental Reasoning Abilities of LLMs [99.76347807139615]
推論には2つの典型型がある: 帰納的推論(deductive reasoning)と帰納的推論(inductive reasoning)。
大規模言語モデル(LLM)の推論能力に関する広範な研究にもかかわらず、ほとんどの研究は帰納的推論と帰納的推論を厳密に区別することができなかった。
LLM推論では、帰納的または帰納的推論という、より大きな課題を引き起こします。
論文 参考訳(メタデータ) (2024-07-31T18:47:11Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Deduction under Perturbed Evidence: Probing Student Simulation
Capabilities of Large Language Models [27.943334687742244]
我々は、最も先進的なGPTモデルでさえ、操作された事実を推論するのに苦労していることを示す。
実世界のアプリケーションにおけるLLMの性能を理解するために,本研究は実践的な意味を持つ。
論文 参考訳(メタデータ) (2023-05-23T20:26:03Z) - A Cohesive Distillation Architecture for Neural Language Models [0.0]
自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に増加することである。
本研究では,大規模モデルの効率的な代替手段を提供するために,知識蒸留法(KD)について検討する。
論文 参考訳(メタデータ) (2023-01-12T08:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。