論文の概要: Improving Input-label Mapping with Demonstration Replay for In-context
Learning
- arxiv url: http://arxiv.org/abs/2310.19572v1
- Date: Mon, 30 Oct 2023 14:29:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 19:55:18.880954
- Title: Improving Input-label Mapping with Demonstration Replay for In-context
Learning
- Title(参考訳): インコンテキスト学習のためのデモ再生による入力ラベルマッピングの改善
- Authors: Zhuocheng Gong, Jiahao Liu, Qifan Wang, Jingang Wang, Xunliang Cai,
Dongyan Zhao, Rui Yan
- Abstract要約: In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 67.57288926736923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) is an emerging capability of large autoregressive
language models where a few input-label demonstrations are appended to the
input to enhance the model's understanding of downstream NLP tasks, without
directly adjusting the model parameters. The effectiveness of ICL can be
attributed to the strong language modeling capabilities of large language
models (LLMs), which enable them to learn the mapping between input and labels
based on in-context demonstrations. Despite achieving promising results, the
causal nature of language modeling in ICL restricts the attention to be
backward only, i.e., a token only attends to its previous tokens, failing to
capture the full input-label information and limiting the model's performance.
In this paper, we propose a novel ICL method called Repeated Demonstration with
Sliding Causal Attention, (RdSca). Specifically, we duplicate later
demonstrations and concatenate them to the front, allowing the model to
`observe' the later information even under the causal restriction. Besides, we
introduce sliding causal attention, which customizes causal attention to avoid
information leakage. Experimental results show that our method significantly
improves the input-label mapping in ICL demonstrations. We also conduct an
in-depth analysis of how to customize the causal attention without training,
which has been an unexplored area in previous research.
- Abstract(参考訳): In-context Learning(ICL)は、入力にいくつかの入力ラベルを付加して、モデルパラメータを直接調整することなく、下流のNLPタスクに対するモデルの理解を強化する、大規模な自己回帰言語モデルの出現する能力である。
ICLの有効性は、大きな言語モデル(LLM)の強力な言語モデリング能力によるもので、インコンテキストのデモンストレーションに基づいて入力とラベルのマッピングを学習することができる。
有望な結果を得たにもかかわらず、ICLにおける言語モデリングの因果性は、注意を後方のみに制限する、すなわちトークンは以前のトークンにのみ対応し、完全な入力ラベル情報の取得に失敗し、モデルの性能を制限している。
本稿では,スライディング因果注意法(RdSca)を用いた新たなICL手法を提案する。
具体的には、後続のデモンストレーションを複製してフロントに結合し、モデルが因果制限下でも後続の情報を‘オブザーバ’できるようにします。
さらに、情報漏洩を避けるために、因果注意をカスタマイズするスライディング因果注意を導入する。
実験の結果,本手法はICL実験における入力ラベルマッピングを大幅に改善することがわかった。
また,先行研究の未調査領域であるトレーニングなしで因果的注意をカスタマイズする方法について,詳細な分析を行った。
関連論文リスト
- Focused Large Language Models are Stable Many-Shot Learners [18.783939647966776]
In-Context Learning (ICL)により、大規模な言語モデル(LLM)がデモから学習することで、迅速なタスク適応を実現することができる。
重要でないコンテンツから注意を逸らすことを避けるために,自明なフィルタリングを行う訓練不要なFocusICLを提案する。
その結果,FocusICLはバニラICLよりも平均5.2%の性能向上を実現し,多くの実演に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-08-26T02:53:24Z) - Demonstration Augmentation for Zero-shot In-context Learning [35.210664102352546]
大規模言語モデル(LLM)は、ICL(In-context Learning)として知られる印象的な能力を実証した。
In-context Learning (DAIL) の実証拡張について提案する。
実験の結果,DAILは直接ゼロショット推論よりもモデルの性能を著しく向上させることができ,外部情報のない数ショットICLよりも優れることがわかった。
論文 参考訳(メタデータ) (2024-06-03T11:46:42Z) - Rectifying Demonstration Shortcut in In-Context Learning [15.08431909212102]
大規模言語モデル(LLM)は、ICL(In-context Learning)能力を利用したいくつかのデモで、様々なタスクを解くことができる。
LLMは、ICL予測を進めるために、インプット-ラベル関係よりも、事前に訓練されたデモのセマンティック先行に頼っていることが多い。
論文 参考訳(メタデータ) (2024-03-14T15:30:14Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - In-context Learning with Retrieved Demonstrations for Language Models: A Survey [23.24271704145876]
インコンテクスト学習者(ICL)は入力コンテキストでのデモを少しだけ行うだけで、新しいタスクに適応できる。
最近の開発では、固定された一連のデモを使う代わりに、各入力クエリに合わせたデモを検索する。
本稿では,検索モデル,検索訓練手順,推論アルゴリズムの異なる設計選択について論じ,比較する。
論文 参考訳(メタデータ) (2024-01-21T23:34:42Z) - Dynamic Demonstrations Controller for In-Context Learning [51.3439660534631]
In-Context Learning(ICL)は、自然言語処理(NLP)のための新しいパラダイムであり、大規模な言語モデルが少数の実演とテストインスタンスを入力として観察する。
これまでの研究では、ICLはデモの選択と順序に敏感であることが判明している。
デモ数を調整することでICLの性能を向上させる動的デモ制御器(D$2$Controller)を提案する。
論文 参考訳(メタデータ) (2023-09-30T14:04:22Z) - Self-ICL: Zero-Shot In-Context Learning with Self-Generated
Demonstrations [38.4166247280112]
Self-ICLは、ゼロショットICLを実行するためにLMの固有の機能をブートストラップするフレームワークである。
Self-ICLは平均精度と頭部比較の両方でゼロショットベースラインを上回っている。
論文 参考訳(メタデータ) (2023-05-24T11:22:34Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。