論文の概要: Dynamic Demonstrations Controller for In-Context Learning
- arxiv url: http://arxiv.org/abs/2310.00385v1
- Date: Sat, 30 Sep 2023 14:04:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 04:39:58.527982
- Title: Dynamic Demonstrations Controller for In-Context Learning
- Title(参考訳): インコンテキスト学習のための動的デモンストレーションコントローラ
- Authors: Fei Zhao, Taotian Pang, Zhen Wu, Zheng Ma, Shujian Huang, Xinyu Dai
- Abstract要約: In-Context Learning(ICL)は、自然言語処理(NLP)のための新しいパラダイムであり、大規模な言語モデルが少数の実演とテストインスタンスを入力として観察する。
これまでの研究では、ICLはデモの選択と順序に敏感であることが判明している。
デモ数を調整することでICLの性能を向上させる動的デモ制御器(D$2$Controller)を提案する。
- 参考スコア(独自算出の注目度): 51.3439660534631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-Context Learning (ICL) is a new paradigm for natural language processing
(NLP), where a large language model (LLM) observes a small number of
demonstrations and a test instance as its input, and directly makes predictions
without updating model parameters. Previous studies have revealed that ICL is
sensitive to the selection and the ordering of demonstrations. However, there
are few studies regarding the impact of the demonstration number on the ICL
performance within a limited input length of LLM, because it is commonly
believed that the number of demonstrations is positively correlated with model
performance. In this paper, we found this conclusion does not always hold true.
Through pilot experiments, we discover that increasing the number of
demonstrations does not necessarily lead to improved performance. Building upon
this insight, we propose a Dynamic Demonstrations Controller (D$^2$Controller),
which can improve the ICL performance by adjusting the number of demonstrations
dynamically. The experimental results show that D$^2$Controller yields a 5.4%
relative improvement on eight different sizes of LLMs across ten datasets.
Moreover, we also extend our method to previous ICL models and achieve
competitive results.
- Abstract(参考訳): In-Context Learning(ICL)は、自然言語処理(NLP)のための新しいパラダイムであり、大きな言語モデル(LLM)が少数のデモとテストインスタンスを入力として観察し、モデルパラメータを更新せずに直接予測する。
これまでの研究では、iclはデモの選択と順序に敏感であることが示されている。
しかし,実演数とモデル性能は正の相関関係にあると一般的に信じられているため,llmの限られた入力長内でのicl性能に対する実演数の影響についてはほとんど研究されていない。
本稿では,この結論が必ずしも真ではないことを見出した。
実験の結果,実演数の増加が必ずしも性能向上につながるとは限らないことがわかった。
この知見に基づいて,動的デモの数を動的に調整することでICL性能を向上させる動的デモ制御器(D$^2$Controller)を提案する。
実験の結果、D$^2$Controllerは10個のデータセットにまたがる8種類のLLMに対して5.4%の相対的な改善をもたらすことが示された。
さらに,本手法を従来のiclモデルにも拡張し,競争結果を得る。
関連論文リスト
- Revisiting Demonstration Selection Strategies in In-Context Learning [69.43198898396211]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - In-context Learning with Retrieved Demonstrations for Language Models: A
Survey [24.935854940534277]
インコンテクスト学習者(ICL)は入力コンテキストでのデモを少しだけ行うだけで、新しいタスクに適応できる。
最近の開発では、固定された一連のデモを使う代わりに、各入力クエリに合わせたデモを検索する。
本稿では,検索モデル,検索訓練手順,推論アルゴリズムの異なる設計選択について論じ,比較する。
論文 参考訳(メタデータ) (2024-01-21T23:34:42Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - In-Context Demonstration Selection with Cross Entropy Difference [95.21947716378641]
大規模言語モデル(LLM)は、ゼロショットタスクのパフォーマンスを改善するためにコンテキスト内デモを使用することができる。
テキスト内デモを選択するためのクロスエントロピー差分法(CED)を提案する。
論文 参考訳(メタデータ) (2023-05-24T05:04:00Z) - Dr.ICL: Demonstration-Retrieved In-context Learning [29.142262267850704]
インコンテキスト学習(ICL)は、LLMを使用するための強力なパラダイムとして、数発のデモでタスクを実行するために大きな言語モデルを教える。
最近の研究では、利用可能なデモのプールからの入力に対して意味論的に類似したデモを取得することで、より良いパフォーマンスが得られることが示唆されている。
この研究は、BM25のような単純な単語オーバーラップ類似度対策でさえ、ランダムに選択された実演よりも優れていることを示すことで、検索ベースのICLアプローチの適用性を拡大する。
論文 参考訳(メタデータ) (2023-05-23T14:55:25Z) - Iterative Forward Tuning Boosts In-context Learning in Language Models [46.848235335267375]
大規模言語モデル (LLM) は、ICL(In-context Learning) の能力を示す。
本稿では、トランスフォーマーの注意と勾配降下に基づく最適化の二重形式を利用して、LCMにおけるICL向上のための2段階のフレームワークを提案する。
本手法は,精度と効率の両面で,標準ICLよりもかなり優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - Self-Generated In-Context Learning: Leveraging Auto-regressive Language
Models as a Demonstration Generator [22.532627423361177]
自己生成型インコンテキスト学習(SG-ICL)は、PLM自体からインコンテキスト学習のためのデモを生成する。
我々は、SG-ICLがゼロショット学習を著しく上回り、一般的に約0.6金のトレーニングサンプルの価値があることを示した。
論文 参考訳(メタデータ) (2022-06-16T10:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。