論文の概要: IDEAL: Influence-Driven Selective Annotations Empower In-Context Learners in Large Language Models
- arxiv url: http://arxiv.org/abs/2310.10873v3
- Date: Sun, 13 Jul 2025 05:18:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:20.765892
- Title: IDEAL: Influence-Driven Selective Annotations Empower In-Context Learners in Large Language Models
- Title(参考訳): IDEAL: インフルエンス駆動選択アノテーションは、大規模言語モデルにおけるインテクスト学習に役立てる
- Authors: Shaokun Zhang, Xiaobo Xia, Zhaoqing Wang, Ling-Hao Chen, Jiale Liu, Qingyun Wu, Tongliang Liu,
- Abstract要約: 本稿では,影響駆動型選択的アノテーション手法を提案する。
アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。
様々なベンチマークで提案手法の優位性を確認する実験を行った。
- 参考スコア(独自算出の注目度): 63.15355173909631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning is a promising paradigm that utilizes in-context examples as prompts for the predictions of large language models. These prompts are crucial for achieving strong performance. However, since the prompts need to be sampled from a large volume of annotated examples, finding the right prompt may result in high annotation costs. To address this challenge, this paper introduces an influence-driven selective annotation method that aims to minimize annotation costs while improving the quality of in-context examples. The essence of our method is to select a pivotal subset from a large-scale unlabeled data pool to annotate for the subsequent sampling of prompts. Specifically, a directed graph is first constructed to represent unlabeled data. Afterward, the influence of candidate unlabeled subsets is quantified with a diffusion process. A simple yet effective greedy algorithm for unlabeled data selection is lastly introduced. It iteratively selects the data if it provides a maximum marginal gain with respect to quantified influence. Compared with previous efforts on selective annotations, our influence-driven method works in an end-to-end manner, avoids an intractable explicit balance between data diversity and representativeness, and enjoys theoretical support. Experiments confirm the superiority of the proposed method on various benchmarks, achieving better performance under lower time consumption during subset selection. The project page is available at https://skzhang1.github.io/IDEAL/.
- Abstract(参考訳): インコンテキスト学習は、大規模言語モデルの予測のプロンプトとして、インコンテキストの例を利用する、有望なパラダイムである。
これらのプロンプトは、高いパフォーマンスを達成するために不可欠です。
しかし、多くの注釈付き例からプロンプトをサンプリングする必要があるため、正しいプロンプトを見つけることは、高いアノテーションコストをもたらす可能性がある。
そこで本研究では,文脈内サンプルの品質を向上しつつ,アノテーションコストを最小化することを目的とした,影響駆動型選択的アノテーション手法を提案する。
本手法の本質は,大規模未ラベルデータプールから重要な部分集合を選択して,その後のプロンプトのサンプリングにアノテートを行うことである。
具体的には、ラベルのないデータを表すために、まず有向グラフを構築する。
その後、未ラベル部分集合の候補の影響を拡散過程で定量化する。
ラベルなしデータ選択のための単純で効果的なグリードアルゴリズムを最後に紹介する。
量子化された影響に対して最大限の利得を与える場合、反復的にデータを選択する。
提案手法は,従来の選択アノテーションと比較してエンドツーエンドで機能し,データの多様性と代表性の間の難解な明確なバランスを回避し,理論的支援を享受する。
実験により,提案手法の各種ベンチマークにおける優位性が確認され,サブセット選択時の低消費電力下での性能が向上した。
プロジェクトページはhttps://skzhang1.github.io/IDEAL/で公開されている。
関連論文リスト
- Effortless Active Labeling for Long-Term Test-Time Adaptation [18.02130603595324]
長期的なテストタイムの適応は、エラーの蓄積による難しい作業である。
最近のアプローチでは、各バッチに少数のサンプルを積極的にラベル付けすることでこの問題に対処している。
本稿では,各バッチにおけるアノテーションに対して,最大1つのサンプルが選択されるように,無駄なアクティブラベリングを実現する方法について検討する。
論文 参考訳(メタデータ) (2025-03-18T07:49:27Z) - Deep Active Learning with Manifold-preserving Trajectory Sampling [2.0717982775472206]
アクティブラーニング(AL)は、アノテーション(ラベル付け)のためのラベルなしデータの選択を最適化するための方法である
既存のディープALメソッドは、間違いなく、ラベル付きデータによって引き起こされるバイアスに悩まされ、ALコンテキストにおけるラベルなしデータよりもはるかに低い割合で処理される。
我々は,より正確な多様体を表現するためにラベル付きデータから学習した特徴空間を強制することを目的とした,manifold-Preserving Trajectory Smpling (MPTS) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T03:04:09Z) - Sub-SA: Strengthen In-context Learning via Submodular Selective Annotation [4.846839863393725]
サブモジュールに基づく選択的アノテーション法であるSub-SA(Submodular Selective )を提案する。
Sub-SAの目的は、アノテーションのコストを削減しつつ、コンテキスト内サンプルの品質を向上させることである。
また、ラベルなしデータセットの多様性と代表性のバランスを改善するために、RPR(Reward and Penalty Regularization)を提案する。
論文 参考訳(メタデータ) (2024-07-08T07:47:30Z) - FastGAS: Fast Graph-based Annotation Selection for In-Context Learning [53.17606395275021]
インコンテキスト学習(ICL)は、大規模言語モデル(LLM)に対して、一連のトレーニングインスタンスをプロンプトとして使用することにより、新しいタスクに対処する権限を与える。
既存の手法では、アノテーションのラベルなし例のサブセットを選択する方法が提案されている。
本稿では,高品質なインスタンスを効率的に識別するグラフベースの選択手法であるFastGASを提案する。
論文 参考訳(メタデータ) (2024-06-06T04:05:54Z) - Prioritizing Informative Features and Examples for Deep Learning from Noisy Data [4.741012804505562]
本稿では,開発プロセスの各段階を強化するために,情報的特徴や事例を優先するシステムフレームワークを提案する。
まず,目的課題の解決に固有の情報的特徴のみを,補助的なアウト・オブ・ディストリビューションデータを用いて抽出する手法を提案する。
次に、能動学習のラベル付けコストを削減するために、ラベルなしノイズデータから情報的サンプルを優先する手法を提案する。
論文 参考訳(メタデータ) (2024-02-27T07:15:35Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Selective Annotation Makes Language Models Better Few-Shot Learners [97.07544941620367]
大規模な言語モデルはコンテキスト内学習を実行でき、いくつかのタスクデモから新しいタスクを学ぶことができる。
本研究は、新しい自然言語タスクのためのデータセット作成において、文脈内学習がもたらす意味について考察する。
本稿では,無教師付きグラフベースの選択的アノテーションであるvoke-kを提案する。
論文 参考訳(メタデータ) (2022-09-05T14:01:15Z) - Active Learning for Coreference Resolution using Discrete Annotation [76.36423696634584]
我々は、コア参照解決におけるアクティブラーニングのためのペアワイズアノテーションを改善した。
提案された参照ペアがコアフェレントでないと判断された場合、アノテータに参照アンテセントを識別するよう依頼する。
既存のベンチマークコアベンチマークデータセットを用いた実験では、この追加質問からの信号が人間のアノテーション時間当たりの大幅なパフォーマンス向上につながることが示された。
論文 参考訳(メタデータ) (2020-04-28T17:17:11Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。