論文の概要: ParaICL: Towards Robust Parallel In-Context Learning
- arxiv url: http://arxiv.org/abs/2404.00570v1
- Date: Sun, 31 Mar 2024 05:56:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:00:38.358220
- Title: ParaICL: Towards Robust Parallel In-Context Learning
- Title(参考訳): ParaICL:ロバストな並列インコンテキスト学習を目指して
- Authors: Xingxuan Li, Xuan-Phi Nguyen, Shafiq Joty, Lidong Bing,
- Abstract要約: 大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 74.38022919598443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have become the norm in natural language processing (NLP), excelling in few-shot in-context learning (ICL) with their remarkable abilities. Nonetheless, the success of ICL largely hinges on the choice of few-shot demonstration examples, making the selection process increasingly crucial. Existing methods have delved into optimizing the quantity and semantic similarity of these examples to improve ICL performances. However, our preliminary experiments indicate that the effectiveness of ICL is limited by the length of the input context. Moreover, varying combinations of few-shot demonstration examples can significantly boost accuracy across different test samples. To address this, we propose a novel method named parallel in-context learning (ParaICL) that effectively utilizes all demonstration examples without exceeding the manageable input context length. ParaICL employs parallel batching to distribute demonstration examples into different batches according to the semantic similarities of the questions in the demonstrations to the test question. It then computes normalized batch semantic scores for each batch. A weighted average semantic objective, constrained by adaptive plausibility, is applied to select the most appropriate tokens. Through extensive experiments, we validate the effectiveness of ParaICL and conduct ablation studies to underscore its design rationale. We further demonstrate that ParaICL can seamlessly integrate with existing methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理(NLP)の標準となり、その優れた能力で、数ショットのインコンテキスト学習(ICL)に優れています。
それにもかかわらず、ICLの成功は、数発のデモ例の選択に大きく影響しているため、選択プロセスはますます重要になっている。
既存の手法は、ICLの性能を改善するために、これらの例の量と意味的類似性を最適化することに注力している。
しかし, 予備実験の結果, ICLの有効性は入力コンテキストの長さによって制限されていることが明らかとなった。
さらに、いくつかのデモ例の様々な組み合わせは、異なるテストサンプル間での精度を大幅に向上させることができる。
そこで本研究では,並列型インコンテキスト学習(ParaICL)という手法を提案する。
ParaICLは並列バッチを使用して、デモ中の質問とテストの質問のセマンティックな類似性に応じて、デモサンプルを異なるバッチに分散する。
次に、バッチ毎に正規化されたバッチセマンティックスコアを計算する。
適応的可算性によって制約された重み付き平均的意味目的を、最も適切なトークンを選択するために適用する。
広範囲な実験を通じて、ParaICLの有効性を検証し、その設計根拠を裏付けるためにアブレーション研究を行う。
さらに、ParaICLが既存のメソッドとシームレスに統合できることを実証する。
関連論文リスト
- Large Language Models Know What Makes Exemplary Contexts [42.90814615222177]
In-context Learning (ICL) は、Large Language Model (LLM) の発展において重要な機能であることが証明されている。
本稿では,LLMのための統合フレームワークを提案する。このフレームワークにより,影響力のあるインコンテキストのサンプルを自己選択してコンテキストを構成することができる。
論文 参考訳(メタデータ) (2024-08-14T12:32:41Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - Bayesian Example Selection Improves In-Context Learning for Speech, Text, and Visual Modalities [15.931776592470895]
大規模言語モデル(LLM)は、文脈内学習(ICL)を通じて新しいタスクに適応できる
本稿では,ICLのための新しいベイジアン・イン・コンテクスト・サンプル・セレクション法(ByCS)を提案する。
論文 参考訳(メタデータ) (2024-04-23T03:42:48Z) - Experimental Design for Active Transductive Inference in Large Language Models [18.2671641610825]
適応的なプロンプト設計にアクティブラーニングを使用し、それをアクティブ・インコンテクスト・プロンプト・デザイン(AIPD)と呼ぶ。
テストセットの性能を最適化するために、トレーニングセットから少数ショット例を適応的に選択し、LCMプロンプトを設計する。
GOとSALの2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-12T23:27:46Z) - Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - Not All Demonstration Examples are Equally Beneficial: Reweighting
Demonstration Examples for In-Context Learning [32.29118942982609]
大規模言語モデル(LLM)は、最近、モデルをスケールアップしてICL(In-Context Learning)能力を獲得した。
本稿では,実演例における平均重量の決め方とICLにおける適用方法について検討する。
8つのテキスト分類タスクの実験結果から,本手法は従来のICLよりも高い性能を示した。
論文 参考訳(メタデータ) (2023-10-12T13:15:11Z) - In-Context Demonstration Selection with Cross Entropy Difference [95.21947716378641]
大規模言語モデル(LLM)は、ゼロショットタスクのパフォーマンスを改善するためにコンテキスト内デモを使用することができる。
テキスト内デモを選択するためのクロスエントロピー差分法(CED)を提案する。
論文 参考訳(メタデータ) (2023-05-24T05:04:00Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Compositional Exemplars for In-context Learning [21.961094715261133]
大規模な事前学習言語モデル(LM)は、印象的なインコンテキスト学習(ICL)能力を示している。
本稿では,CEIL (Compositional Exemplars for In-context Learning) を提案する。
我々は、感情分析、パラフレーズ検出、自然言語推論、コモンセンス推論、オープンドメイン質問応答、コード生成、意味解析を含む7つの異なるNLPタスクから、CEILを12の分類および生成データセットで検証する。
論文 参考訳(メタデータ) (2023-02-11T14:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。