論文の概要: IDEAL: Influence-Driven Selective Annotations Empower In-Context
Learners in Large Language Models
- arxiv url: http://arxiv.org/abs/2310.10873v2
- Date: Sat, 20 Jan 2024 03:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 20:27:15.025115
- Title: IDEAL: Influence-Driven Selective Annotations Empower In-Context
Learners in Large Language Models
- Title(参考訳): IDEAL: インフルエンス駆動選択アノテーションは、大規模言語モデルにおけるインテクスト学習に役立てる
- Authors: Shaokun Zhang, Xiaobo Xia, Zhaoqing Wang, Ling-Hao Chen, Jiale Liu,
Qingyun Wu, Tongliang Liu
- Abstract要約: 本稿では,影響駆動型選択的アノテーション手法を提案する。
アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。
様々なベンチマークで提案手法の優位性を確認する実験を行った。
- 参考スコア(独自算出の注目度): 66.32043210237768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning is a promising paradigm that utilizes in-context examples
as prompts for the predictions of large language models. These prompts are
crucial for achieving strong performance. However, since the prompts need to be
sampled from a large volume of annotated examples, finding the right prompt may
result in high annotation costs. To address this challenge, this paper
introduces an influence-driven selective annotation method that aims to
minimize annotation costs while improving the quality of in-context examples.
The essence of our method is to select a pivotal subset from a large-scale
unlabeled data pool to annotate for the subsequent sampling of prompts.
Specifically, a directed graph is first constructed to represent unlabeled
data. Afterward, the influence of candidate unlabeled subsets is quantified
with a diffusion process. A simple yet effective greedy algorithm for unlabeled
data selection is lastly introduced. It iteratively selects the data if it
provides a maximum marginal gain with respect to quantified influence. Compared
with previous efforts on selective annotations, our influence-driven method
works in an end-to-end manner, avoids an intractable explicit balance between
data diversity and representativeness, and enjoys theoretical support.
Experiments confirm the superiority of the proposed method on various
benchmarks, achieving better performance under lower time consumption during
subset selection. The project page is available at
https://skzhang1.github.io/IDEAL/.
- Abstract(参考訳): インコンテキスト学習は、大規模言語モデルの予測のプロンプトとして、インコンテキストサンプルを利用する有望なパラダイムである。
これらのプロンプトは、強力なパフォーマンスを達成するために重要です。
しかし、多くの注釈付き例からプロンプトをサンプリングする必要があるため、適切なプロンプトを見つけると、アノテーションコストが高くなる可能性がある。
そこで本稿では,アノテーションのコストを最小化し,文脈内例の品質を向上させるためのインフルエンス駆動選択的アノテーション手法を提案する。
本手法の本質は,大規模非ラベルデータプールから重要なサブセットを選択し,それに続くプロンプトのサンプリングに注釈を付けることである。
具体的には、有向グラフはラベルのないデータを表すために最初に構築される。
その後、候補非ラベル部分集合の影響は拡散過程によって定量化される。
ラベルなしデータ選択のための単純で効果的なグリードアルゴリズムを最後に紹介する。
定量化された影響に対して限界ゲインが最大であれば、データを反復的に選択する。
提案手法は,従来の選択アノテーションと比較してエンドツーエンドで機能し,データの多様性と代表性の間の難解なバランスを回避し,理論的支援を享受する。
実験では,提案手法が様々なベンチマークで優れていることを確認し,部分集合選択時の低消費下での性能を向上した。
プロジェクトページはhttps://skzhang1.github.io/ideal/。
関連論文リスト
- Deep Active Learning with Manifold-preserving Trajectory Sampling [2.0717982775472206]
アクティブラーニング(AL)は、アノテーション(ラベル付け)のためのラベルなしデータの選択を最適化するための方法である
既存のディープALメソッドは、間違いなく、ラベル付きデータによって引き起こされるバイアスに悩まされ、ALコンテキストにおけるラベルなしデータよりもはるかに低い割合で処理される。
我々は,より正確な多様体を表現するためにラベル付きデータから学習した特徴空間を強制することを目的とした,manifold-Preserving Trajectory Smpling (MPTS) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T03:04:09Z) - Sub-SA: Strengthen In-context Learning via Submodular Selective Annotation [4.846839863393725]
サブモジュールに基づく選択的アノテーション法であるSub-SA(Submodular Selective )を提案する。
Sub-SAの目的は、アノテーションのコストを削減しつつ、コンテキスト内サンプルの品質を向上させることである。
また、ラベルなしデータセットの多様性と代表性のバランスを改善するために、RPR(Reward and Penalty Regularization)を提案する。
論文 参考訳(メタデータ) (2024-07-08T07:47:30Z) - FastGAS: Fast Graph-based Annotation Selection for In-Context Learning [53.17606395275021]
インコンテキスト学習(ICL)は、大規模言語モデル(LLM)に対して、一連のトレーニングインスタンスをプロンプトとして使用することにより、新しいタスクに対処する権限を与える。
既存の手法では、アノテーションのラベルなし例のサブセットを選択する方法が提案されている。
本稿では,高品質なインスタンスを効率的に識別するグラフベースの選択手法であるFastGASを提案する。
論文 参考訳(メタデータ) (2024-06-06T04:05:54Z) - Prioritizing Informative Features and Examples for Deep Learning from Noisy Data [4.741012804505562]
本稿では,開発プロセスの各段階を強化するために,情報的特徴や事例を優先するシステムフレームワークを提案する。
まず,目的課題の解決に固有の情報的特徴のみを,補助的なアウト・オブ・ディストリビューションデータを用いて抽出する手法を提案する。
次に、能動学習のラベル付けコストを削減するために、ラベルなしノイズデータから情報的サンプルを優先する手法を提案する。
論文 参考訳(メタデータ) (2024-02-27T07:15:35Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Selective Annotation Makes Language Models Better Few-Shot Learners [97.07544941620367]
大規模な言語モデルはコンテキスト内学習を実行でき、いくつかのタスクデモから新しいタスクを学ぶことができる。
本研究は、新しい自然言語タスクのためのデータセット作成において、文脈内学習がもたらす意味について考察する。
本稿では,無教師付きグラフベースの選択的アノテーションであるvoke-kを提案する。
論文 参考訳(メタデータ) (2022-09-05T14:01:15Z) - Active Learning for Coreference Resolution using Discrete Annotation [76.36423696634584]
我々は、コア参照解決におけるアクティブラーニングのためのペアワイズアノテーションを改善した。
提案された参照ペアがコアフェレントでないと判断された場合、アノテータに参照アンテセントを識別するよう依頼する。
既存のベンチマークコアベンチマークデータセットを用いた実験では、この追加質問からの信号が人間のアノテーション時間当たりの大幅なパフォーマンス向上につながることが示された。
論文 参考訳(メタデータ) (2020-04-28T17:17:11Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。