論文の概要: Sub-SA: Strengthen In-context Learning via Submodular Selective Annotation
- arxiv url: http://arxiv.org/abs/2407.05693v1
- Date: Mon, 8 Jul 2024 07:47:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 16:40:17.384606
- Title: Sub-SA: Strengthen In-context Learning via Submodular Selective Annotation
- Title(参考訳): Sub-SA: 部分モジュラ選択アノテーションによる文脈内学習の強化
- Authors: Jian Qian, Miao Sun, Sifan Zhou, Ziyu Zhao, Ruizhi Hun, Patrick Chiang,
- Abstract要約: サブモジュールベースの選択的アノテーションである textbfSub-SA (textbfSubmodular textbfSelective textbfAnnotation) を提案する。
Sub-SAの目的は、文脈内サンプルの品質を改善し、選択プロセスの時間消費を最小限に抑えつつ、アノテーションのコストを削減することである。
- 参考スコア(独自算出の注目度): 4.846839863393725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL) leverages in-context examples as prompts for the predictions of Large Language Models (LLMs). These prompts play a crucial role in achieving strong performance. However, the selection of suitable prompts from a large pool of labeled examples often entails significant annotation costs. To address this challenge, we propose \textbf{Sub-SA} (\textbf{Sub}modular \textbf{S}elective \textbf{A}nnotation), a submodule-based selective annotation method. The aim of Sub-SA is to reduce annotation costs while improving the quality of in-context examples and minimizing the time consumption of the selection process. In Sub-SA, we design a submodular function that facilitates effective subset selection for annotation and demonstrates the characteristics of monotonically and submodularity from the theoretical perspective. Specifically, we propose \textbf{RPR} (\textbf{R}eward and \textbf{P}enalty \textbf{R}egularization) to better balance the diversity and representativeness of the unlabeled dataset attributed to a reward term and a penalty term, respectively. Consequently, the selection for annotations can be effectively addressed with a simple yet effective greedy search algorithm based on the submodular function. Finally, we apply the similarity prompt retrieval to get the examples for ICL.
- Abstract(参考訳): In-context Learning (ICL) は、Large Language Models (LLM) の予測のプロンプトとして、インコンテキストの例を活用する。
これらのプロンプトは、強いパフォーマンスを達成する上で重要な役割を果たす。
しかし、ラベル付きサンプルの大きなプールから適切なプロンプトを選択することは、しばしば重要なアノテーションコストを必要とする。
この課題に対処するため,サブモジュールベースの選択的アノテーションである \textbf{Sub-SA} (\textbf{Sub}modular \textbf{S}elective \textbf{A}nnotation) を提案する。
Sub-SAの目的は、文脈内サンプルの品質を改善し、選択プロセスの時間消費を最小限に抑えつつ、アノテーションのコストを削減することである。
Sub-SAでは、アノテーションの効果的な部分集合選択を容易にする部分モジュラー関数を設計し、理論的な観点から単調および部分モジュラリティの特性を実証する。
具体的には,報酬項とペナルティ項に関連付けられたラベル付きデータセットの多様性と代表性をよりよくバランスさせるために, \textbf{RPR} (\textbf{R}eward と \textbf{P}enalty \textbf{R}egularization) を提案する。
これにより、アノテーションの選択は、サブモジュール関数に基づいた単純で効果的なグレディ探索アルゴリズムで効果的に対処できる。
最後に、ICLのサンプルを取得するために類似性プロンプト検索を適用する。
関連論文リスト
- FastGAS: Fast Graph-based Annotation Selection for In-Context Learning [53.17606395275021]
インコンテキスト学習(ICL)は、大規模言語モデル(LLM)に対して、一連のトレーニングインスタンスをプロンプトとして使用することにより、新しいタスクに対処する権限を与える。
既存の手法では、アノテーションのラベルなし例のサブセットを選択する方法が提案されている。
本稿では,高品質なインスタンスを効率的に識別するグラフベースの選択手法であるFastGASを提案する。
論文 参考訳(メタデータ) (2024-06-06T04:05:54Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - IDEAL: Influence-Driven Selective Annotations Empower In-Context
Learners in Large Language Models [66.32043210237768]
本稿では,影響駆動型選択的アノテーション手法を提案する。
アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。
様々なベンチマークで提案手法の優位性を確認する実験を行った。
論文 参考訳(メタデータ) (2023-10-16T22:53:54Z) - SEER : A Knapsack approach to Exemplar Selection for In-Context HybridQA [1.0323063834827413]
本稿では,ハイブリッド推論(SEER)のためのサンプルの選択について述べる。
SEERの有効性はFinQAとTAT-QAで実証されている。
論文 参考訳(メタデータ) (2023-10-10T14:50:20Z) - Large Language Model Prompt Chaining for Long Legal Document
Classification [2.3148470932285665]
チェイン(Chaining)は、複雑なタスクを小さな管理可能なコンポーネントに分解する戦略である。
即時連鎖により、ゼロショット以上の性能を向上できるだけでなく、より大きなモデルによって達成されたマイクロF1スコアを超越できることを実証する。
論文 参考訳(メタデータ) (2023-08-08T08:57:01Z) - Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。
本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T04:04:47Z) - Data-efficient Active Learning for Structured Prediction with Partial
Annotation and Self-Training [16.740101757982828]
本稿では,能動的学習を用いた構造化ラベル空間のアノテーションコストを削減できる実用的手法を提案する。
提案手法は部分アノテーションを利用して,アノテーションの最も情報性の高い部分構造のみを選択することで,ラベル付けコストを削減する。
我々はまた、自己学習を利用して、現在のモデルの自動予測を、注釈のないサブ構造のための擬似ラベルとして組み込む。
論文 参考訳(メタデータ) (2023-05-22T01:58:42Z) - BERM: Training the Balanced and Extractable Representation for Matching
to Improve Generalization Ability of Dense Retrieval [54.66399120084227]
本稿では,BERMと呼ばれるマッチング信号の取得により,高密度検索の一般化を改善する手法を提案する。
センス検索は、ドメイン内のラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。
論文 参考訳(メタデータ) (2023-05-18T15:43:09Z) - Finding Support Examples for In-Context Learning [73.90376920653507]
本稿では,この課題を2段階に解決するためのfilter-thEN-Search法であるLENSを提案する。
まず、データセットをフィルタリングして、個別に情報的インコンテキストの例を得る。
そこで本研究では,反復的に改良し,選択したサンプル順列を評価可能な多様性誘導型サンプル探索を提案する。
論文 参考訳(メタデータ) (2023-02-27T06:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。