論文の概要: FastGAS: Fast Graph-based Annotation Selection for In-Context Learning
- arxiv url: http://arxiv.org/abs/2406.03730v1
- Date: Thu, 6 Jun 2024 04:05:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 18:25:49.933920
- Title: FastGAS: Fast Graph-based Annotation Selection for In-Context Learning
- Title(参考訳): FastGAS:インコンテキスト学習のための高速グラフベースのアノテーション選択
- Authors: Zihan Chen, Song Wang, Cong Shen, Jundong Li,
- Abstract要約: インコンテキスト学習(ICL)は、大規模言語モデル(LLM)に対して、一連のトレーニングインスタンスをプロンプトとして使用することにより、新しいタスクに対処する権限を与える。
既存の手法では、アノテーションのラベルなし例のサブセットを選択する方法が提案されている。
本稿では,高品質なインスタンスを効率的に識別するグラフベースの選択手法であるFastGASを提案する。
- 参考スコア(独自算出の注目度): 53.17606395275021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) empowers large language models (LLMs) to tackle new tasks by using a series of training instances as prompts. Since generating the prompts needs to sample from a vast pool of instances and annotate them (e.g., add labels in classification task), existing methods have proposed to select a subset of unlabeled examples for annotation, thus enhancing the quality of prompts and concurrently mitigating annotation costs. However, these methods often require a long time to select instances due to their complexity, hindering their practical viability. To address this limitation, we propose a graph-based selection method, FastGAS, designed to efficiently identify high-quality instances while minimizing computational overhead. Initially, we construct a data similarity graph based on instance similarities. Subsequently, employing a graph partitioning algorithm, we partition the graph into pieces. Within each piece (i.e., subgraph), we adopt a greedy approach to pick the most representative nodes. By aggregating nodes from diverse pieces and annotating the corresponding instances, we identify a set of diverse and representative instances for ICL. Compared to prior approaches, our method not only exhibits superior performance on different tasks but also significantly reduces selection time. In addition, we demonstrate the efficacy of our approach in LLMs of larger sizes.
- Abstract(参考訳): インコンテキスト学習(ICL)は、大規模言語モデル(LLM)に対して、一連のトレーニングインスタンスをプロンプトとして使用することにより、新しいタスクに対処する権限を与える。
プロンプトの生成には大量のインスタンスからサンプルを生成してアノテートする(例えば分類タスクにラベルを追加する)必要があるため、既存の手法では、アノテーションのラベルなし例のサブセットを選択して、プロンプトの品質を高め、アノテーションのコストを同時に軽減する方法が提案されている。
しかしながら、これらの手法は、その複雑さのためにインスタンスを選択するのに長い時間を要することが多く、現実的な可能性を妨げる。
この制限に対処するため,計算オーバーヘッドを最小限に抑えつつ,高品質なインスタンスを効率的に識別するグラフベースの選択手法であるFastGASを提案する。
当初、インスタンスの類似性に基づいたデータ類似性グラフを構築した。
その後、グラフ分割アルゴリズムを用いてグラフを分割する。
各部分(つまり部分グラフ)の中で、最も代表的なノードを選択するために欲求的なアプローチを採用する。
ノードを多様な部分から集約し、対応するインスタンスに注釈を付けることで、ICLの多様な代表インスタンスの集合を識別する。
従来の手法と比較すると,提案手法はタスクに優れた性能を示すだけでなく,選択時間を大幅に短縮する。
さらに,大型LLMにおいて本手法の有効性を実証した。
関連論文リスト
- Reasoning Graph Enhanced Exemplars Retrieval for In-Context Learning [13.381974811214764]
RGER(Reasoning Graph-enhanced Exemplar Retrieval)
RGERはグラフカーネルを使用して、意味的および構造的類似性のある例を選択する。
数学およびロジット推論タスクにおけるRGERの有効性は、最先端の検索に基づくアプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-09-17T12:58:29Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - Decoupling Weighing and Selecting for Integrating Multiple Graph
Pre-training Tasks [58.65410800008769]
本稿では、複数のグラフ事前学習タスク、Weigh And Select (WAS)を統合するための新しいインスタンスレベルフレームワークを提案する。
まず、カスタマイズされたインスタンスレベルのタスク重み付け戦略を学習したタスクプールから、各インスタンスのタスクの最適な組み合わせを適応的に学習する。
ノードレベルおよびグラフレベルのダウンストリームタスクにわたる16のグラフデータセットの実験は、WASが他の主要なタスクと同等のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2024-03-03T05:29:49Z) - IDEAL: Influence-Driven Selective Annotations Empower In-Context
Learners in Large Language Models [66.32043210237768]
本稿では,影響駆動型選択的アノテーション手法を提案する。
アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。
様々なベンチマークで提案手法の優位性を確認する実験を行った。
論文 参考訳(メタデータ) (2023-10-16T22:53:54Z) - DiffusAL: Coupling Active Learning with Graph Diffusion for
Label-Efficient Node Classification [1.0602247913671219]
我々はDiffusALと呼ばれる新しいグラフ学習手法を導入し、多様な設定において大きな堅牢性を示す。
取得とトレーニングの計算のほとんどは事前処理が可能であり、Diffusalは多様な選択基準を組み合わせたアプローチに比べて効率的である。
各種ベンチマークデータセットを用いた実験により, 従来の手法と異なり, テスト対象のデータセットとラベルの予算の100%において, ランダム選択を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-07-31T20:30:13Z) - Comparing Text Representations: A Theory-Driven Approach [2.893558866535708]
我々は、テキストデータセットの特定の特徴に適合するように、計算学習理論から一般的なツールを適応させる。
本稿では,表現とタスクの整合性を評価する手法を提案する。
この方法は、分類に基づくNLPタスクの難易度を校正し、定量的に測定する。
論文 参考訳(メタデータ) (2021-09-15T17:48:19Z) - Selecting Relevant Features from a Multi-domain Representation for
Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。
このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文 参考訳(メタデータ) (2020-03-20T15:44:17Z) - Optimal Clustering from Noisy Binary Feedback [75.17453757892152]
本稿では,二元的ユーザフィードバックから一組のアイテムをクラスタリングする問題について検討する。
最小クラスタ回復誤差率のアルゴリズムを考案する。
適応選択のために,情報理論的誤差下界の導出にインスパイアされたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2019-10-14T09:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。