論文の概要: DEEP-ICL: Definition-Enriched Experts for Language Model In-Context
Learning
- arxiv url: http://arxiv.org/abs/2403.04233v1
- Date: Thu, 7 Mar 2024 05:26:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 15:04:19.932876
- Title: DEEP-ICL: Definition-Enriched Experts for Language Model In-Context
Learning
- Title(参考訳): DEEP-ICL:言語モデルインコンテキスト学習のための定義豊富なエキスパート
- Authors: Xingwei Qu, Yiming Liang, Yucheng Wang, Tianyu Zheng, Tommy Yue, Lei
Ma, Stephen W. Huang, Jiajun Zhang, Wenhu Chen, Chenghua Lin, Jie Fu, Ge
Zhang
- Abstract要約: 大規模言語モデル(LLM)におけるパラメータの多さは、コンテキスト内学習(ICL)の能力を促進すると長い間考えられてきた。
ICL のための新しいタスク定義拡張 ExPert Ensembling Method である DEEP-ICL を紹介する。
ICLの改善はモデルのサイズに直接依存するのではなく、基本的にはタスク定義やタスク誘導学習の理解に起因している、と我々は主張する。
- 参考スコア(独自算出の注目度): 61.85871109164743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has long been assumed that the sheer number of parameters in large
language models (LLMs) drives in-context learning (ICL) capabilities, enabling
remarkable performance improvements by leveraging task-specific demonstrations.
Challenging this hypothesis, we introduce DEEP-ICL, a novel task Definition
Enriched ExPert Ensembling methodology for ICL. DEEP-ICL explicitly extracts
task definitions from given demonstrations and generates responses through
learning task-specific examples. We argue that improvement from ICL does not
directly rely on model size, but essentially stems from understanding task
definitions and task-guided learning. Inspired by this, DEEP-ICL combines two
3B models with distinct roles (one for concluding task definitions and the
other for learning task demonstrations) and achieves comparable performance to
LLaMA2-13B. Furthermore, our framework outperforms conventional ICL by
overcoming pretraining sequence length limitations, by supporting unlimited
demonstrations. We contend that DEEP-ICL presents a novel alternative for
achieving efficient few-shot learning, extending beyond the conventional ICL.
- Abstract(参考訳): 大規模言語モデル(LLM)のパラメータ数が多ければ多いほど、コンテキスト内学習(ICL)の能力が向上し、タスク固有のデモンストレーションを活用することで、大幅なパフォーマンス向上が期待できる。
ICLのための新しいタスク定義拡張ExPert Ensembling法であるDEEP-ICLを導入する。
DEEP-ICLは与えられたデモからタスク定義を明示的に抽出し、タスク固有の例を学習することで応答を生成する。
iclによる改善はモデルサイズに直接依存しないが、本質的にタスク定義とタスクガイド学習を理解することに起因していると論じている。
これに触発されて、DEEP-ICLは2つの3Bモデルと異なる役割(ひとつはタスク定義をまとめ、もう一つはタスクのデモを学習する)を組み合わせ、LLaMA2-13Bに匹敵するパフォーマンスを達成する。
さらに,本フレームワークは,プリトレーニングシーケンス長制限を克服し,無制限のデモンストレーションをサポートすることにより,従来のiclを上回っている。
我々は,DEEP-ICLが従来のICLを超越した,効率的な数ショット学習を実現する新しい代替手段であると主張している。
関連論文リスト
- Let's Learn Step by Step: Enhancing In-Context Learning Ability with
Curriculum Learning [10.053004550486214]
デモオーダリングは,大規模言語モデル(LLM)の性能に大きく影響する。
我々は,ICLの簡易かつ効果的な実演順序付け手法であるICCLを提唱する。
論文 参考訳(メタデータ) (2024-02-16T14:55:33Z) - LALM: Long-Term Action Anticipation with Language Models [74.10147822693791]
言語モデル(LALM)を用いた長期的行動予測のための新しいアプローチを提案する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果、LALMは長期的な行動予測のタスクにおいて最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - When does In-context Learning Fall Short and Why? A Study on
Specification-Heavy Tasks [54.71034943526973]
In-context Learning (ICL)は、大規模言語モデル(LLM)のデフォルトメソッドとなっている。
ICLは、複雑で広範囲なタスク仕様を持つタスクである、仕様の重いタスクを処理できないことが分かりました。
我々は、コンテキストを具体的に理解できないこと、タスクスキーマが人間と理解できないこと、長文理解が不十分であること、の3つの主な理由を識別する。
論文 参考訳(メタデータ) (2023-11-15T14:26:30Z) - Heuristic-Driven Link-of-Analogy Prompting: Enhancing Large Language
Models for Document-Level Event Argument Extraction [13.42926436351462]
本稿では,Huristic-Driven Link-of-Alogy (HD-LoA)を導入し,サンプル選択の課題に対処する。
人間の類推的推論にインスパイアされ,LLMが新たな状況に対処できるリンク・オブ・アナロジー・プロンプトを提案する。
実験により,本手法は文書レベルのAEデータセット上で,既存のプロンプト手法や数発の教師付き学習手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-11-11T12:05:01Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Scaling In-Context Demonstrations with Structured Attention [75.41845145597875]
我々は、文脈内学習のためのより優れたアーキテクチャ設計を提案する。
In-Context Learningのための構造化アテンションは、構造化アテンションメカニズムによって完全なアテンションを置き換える。
SAICLは、最大3.4倍の推論速度で、フルアテンションよりも同等または優れた性能を実現していることを示す。
論文 参考訳(メタデータ) (2023-07-05T23:26:01Z) - What In-Context Learning "Learns" In-Context: Disentangling Task
Recognition and Task Learning [24.395288160951118]
大規模言語モデル(LLM)は、いくつかのデモでタスクを解くためにコンテキスト内学習(ICL)を利用する。
ICLがデモを利用する2つの方法の特徴付けを行う。
TRのみを用いて非自明な性能を達成でき、TRはより大きなモデルやより多くのデモでさらに改善されないことを示す。
論文 参考訳(メタデータ) (2023-05-16T18:05:19Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。