論文の概要: Unifying Demonstration Selection and Compression for In-Context Learning
- arxiv url: http://arxiv.org/abs/2405.17062v2
- Date: Sat, 15 Jun 2024 21:16:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 04:18:36.575332
- Title: Unifying Demonstration Selection and Compression for In-Context Learning
- Title(参考訳): インコンテキスト学習のためのデモ選択と圧縮の統一化
- Authors: Jun Gao, Ziqiang Cao, Wenjie Li,
- Abstract要約: ICL フレームワーク UniICL を提案する。このフレームワークは,実演選択と圧縮を統一し,単一の凍結 LLM による最終応答生成を行う。
UniICLは、プロジェクション層から派生した17Mのトレーニング可能なパラメータのみを含む、パラメータ効率のよいフレームワークである。
- 参考スコア(独自算出の注目度): 14.545490629324295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL) facilitates large language models (LLMs) exhibiting spectacular emergent capabilities in various scenarios. Unfortunately, introducing demonstrations easily makes the prompt length explode, bringing a significant burden to hardware. In addition, random demonstrations usually achieve limited improvements in ICL, necessitating demonstration selection among accessible candidates. Previous studies introduce extra modules to perform demonstration compression or selection independently. In this paper, we propose an ICL framework UniICL, which Unifies demonstration selection and compression, and final response generation via a single frozen LLM. Specifically, UniICL first projects actual demonstrations and inference text inputs into short virtual tokens, respectively. Then, virtual tokens are applied to select suitable demonstrations by measuring semantic similarity within latent space among candidate demonstrations and inference input. Finally, inference text inputs together with selected virtual demonstrations are fed into the same frozen LLM for response generation. Notably, UniICL is a parameter-efficient framework that only contains 17M trainable parameters originating from the projection layer. We conduct experiments and analysis over in- and out-domain datasets of both generative and understanding tasks, encompassing ICL scenarios with plentiful and limited demonstration candidates. Results show that UniICL effectively unifies $12 \times$ compression, demonstration selection, and response generation, efficiently scaling up the baseline from 4-shot to 64-shot ICL in IMDb with 24 GB CUDA allocation
- Abstract(参考訳): In-context Learning (ICL)は、様々なシナリオにおいて目覚ましい創発的な能力を示す大規模な言語モデル(LLM)を促進する。
残念なことに、デモを導入することで、迅速な長さが爆発的になり、ハードウェアに大きな負担がかかる。
加えて、ランダムなデモは通常、ICLの限られた改善を達成し、アクセス可能な候補間のデモ選択を必要とする。
従来の研究では、デモ圧縮や選択を独立して行うための追加モジュールが導入されていた。
本稿では、実演選択と圧縮を統一するICLフレームワークUniICLと、単一凍結LLMによる最終応答生成を提案する。
特に、UniICLは、まず実演と推測テキストの入力をそれぞれ短い仮想トークンに投影する。
次に、仮想トークンを候補演示と推論入力の間の潜在空間内の意味的類似性を測定することにより、適切な演示を選択するために適用する。
最後に、選択された仮想デモンストレーションと共に推論テキスト入力を同じ凍結LDMに入力して応答生成を行う。
注目すべきは、UniICLはプロジェクション層から派生した17Mのトレーニング可能なパラメータのみを含むパラメータ効率のよいフレームワークである。
生成タスクと理解タスクの両方のドメイン内および外部データセットに関する実験と分析を行い、多能かつ限定的な実証候補を伴うICLシナリオを包含する。
結果は,UniICLが圧縮,デモ選択,応答生成を効果的に統合し,24GBのCUDAアロケーションを持つIMDbの4ショットICLから64ショットICLまでのベースラインを効率的にスケールアップすることを示した。
関連論文リスト
- Show, Don't Tell: Aligning Language Models with Demonstrated Feedback [54.10302745921713]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - In-Context Learning with Iterative Demonstration Selection [32.62104857810135]
大規模言語モデル (LLMs) は、文脈内学習 (ICL) を介して強力な数ショット学習能力を示した。
ICLの性能は、数発のデモの選択に非常に敏感であることが示されている。
両次元のメリットを活用するために,反復デモ選択(IDS)を提案する。
論文 参考訳(メタデータ) (2023-10-15T16:40:19Z) - Dynamic Demonstrations Controller for In-Context Learning [51.3439660534631]
In-Context Learning(ICL)は、自然言語処理(NLP)のための新しいパラダイムであり、大規模な言語モデルが少数の実演とテストインスタンスを入力として観察する。
これまでの研究では、ICLはデモの選択と順序に敏感であることが判明している。
デモ数を調整することでICLの性能を向上させる動的デモ制御器(D$2$Controller)を提案する。
論文 参考訳(メタデータ) (2023-09-30T14:04:22Z) - Are Human-generated Demonstrations Necessary for In-context Learning? [22.783456038837794]
SEC(Self-contemplation prompting Strategy)は、人為的なデモンストレーションのないパラダイムである。
算術推論、常識推論、マルチタスク言語理解、コード生成ベンチマークにおける大規模な実験は、SECがゼロショット学習戦略を著しく上回っていることを示している。
論文 参考訳(メタデータ) (2023-09-26T05:10:08Z) - Ambiguity-Aware In-Context Learning with Large Language Models [27.20414960164616]
インコンテキスト学習(ICL)、すなわち、LLMのタスク固有のデモは、タスク固有の微調整を必要とせず、ダウンストリームのゲインにつながった。
そこで本研究では,ICLの優れた実演方法について検討する。
セマンティックに類似したICLのデモンストレーションを選択するだけでなく、テスト例を取り巻く固有のラベルの曖昧さを解決するのに役立つものを選択することは有益である。
論文 参考訳(メタデータ) (2023-09-14T17:48:34Z) - Exploring Demonstration Ensembling for In-context Learning [75.35436025709049]
In-context Learning (ICL) は、与えられたタスクに対する入出力ペアの言語モデル(LM)の例を示す。
ICLの標準的なアプローチは、LMdのデモとテスト入力の促進である。
本研究は,単純な結合の代替として,DENSE(Demonstration Ensembling)を探索する。
論文 参考訳(メタデータ) (2023-08-17T04:45:19Z) - Self-ICL: Zero-Shot In-Context Learning with Self-Generated
Demonstrations [38.4166247280112]
Self-ICLは、ゼロショットICLを実行するためにLMの固有の機能をブートストラップするフレームワークである。
Self-ICLは平均精度と頭部比較の両方でゼロショットベースラインを上回っている。
論文 参考訳(メタデータ) (2023-05-24T11:22:34Z) - Dr.ICL: Demonstration-Retrieved In-context Learning [29.142262267850704]
インコンテキスト学習(ICL)は、LLMを使用するための強力なパラダイムとして、数発のデモでタスクを実行するために大きな言語モデルを教える。
最近の研究では、利用可能なデモのプールからの入力に対して意味論的に類似したデモを取得することで、より良いパフォーマンスが得られることが示唆されている。
この研究は、BM25のような単純な単語オーバーラップ類似度対策でさえ、ランダムに選択された実演よりも優れていることを示すことで、検索ベースのICLアプローチの適用性を拡大する。
論文 参考訳(メタデータ) (2023-05-23T14:55:25Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。