論文の概要: Annotating Data for Fine-Tuning a Neural Ranker? Current Active Learning
Strategies are not Better than Random Selection
- arxiv url: http://arxiv.org/abs/2309.06131v1
- Date: Tue, 12 Sep 2023 11:17:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 13:19:06.955810
- Title: Annotating Data for Fine-Tuning a Neural Ranker? Current Active Learning
Strategies are not Better than Random Selection
- Title(参考訳): ニューラルランカの微調整のためのアノテートデータ?
現在のアクティブ学習戦略はランダム選択よりも優れている
- Authors: Sophia Althammer, Guido Zuccon, Sebastian Hofst\"atter, Suzan
Verberne, Allan Hanbury
- Abstract要約: 限られたトレーニングデータと予算の下で, PLM をベースとした微調整ローダについて検討する。
その結果,アクティブ・ラーニング・ストラテジーはトレーニング・サブセットのランダムな選択よりも有効性に優れていないことがわかった。
- 参考スコア(独自算出の注目度): 27.308095874473082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Search methods based on Pretrained Language Models (PLM) have demonstrated
great effectiveness gains compared to statistical and early neural ranking
models. However, fine-tuning PLM-based rankers requires a great amount of
annotated training data. Annotating data involves a large manual effort and
thus is expensive, especially in domain specific tasks. In this paper we
investigate fine-tuning PLM-based rankers under limited training data and
budget. We investigate two scenarios: fine-tuning a ranker from scratch, and
domain adaptation starting with a ranker already fine-tuned on general data,
and continuing fine-tuning on a target dataset. We observe a great variability
in effectiveness when fine-tuning on different randomly selected subsets of
training data. This suggests that it is possible to achieve effectiveness gains
by actively selecting a subset of the training data that has the most positive
effect on the rankers. This way, it would be possible to fine-tune effective
PLM rankers at a reduced annotation budget. To investigate this, we adapt
existing Active Learning (AL) strategies to the task of fine-tuning PLM rankers
and investigate their effectiveness, also considering annotation and
computational costs. Our extensive analysis shows that AL strategies do not
significantly outperform random selection of training subsets in terms of
effectiveness. We further find that gains provided by AL strategies come at the
expense of more assessments (thus higher annotation costs) and AL strategies
underperform random selection when comparing effectiveness given a fixed
annotation cost. Our results highlight that ``optimal'' subsets of training
data that provide high effectiveness at low annotation cost do exist, but
current mainstream AL strategies applied to PLM rankers are not capable of
identifying them.
- Abstract(参考訳): 事前学習言語モデル (plm) に基づく探索法は, 統計的, 初期の神経格付けモデルと比較して有意な有効性を示した。
しかし、微調整のPLMベースのランキングは大量の注釈付きトレーニングデータを必要とする。
データのアノテートには大きな手作業が必要であり、特にドメイン固有のタスクでは高価である。
本稿では,限られたトレーニングデータと予算下での微調整 PLM によるランク付けについて検討する。
我々は、スクラッチからランカの微調整と、一般的なデータに基づいて既に微調整されたランカから始まるドメイン適応と、ターゲットデータセットの微調整の継続という2つのシナリオを調査した。
異なるランダムに選択されたトレーニングデータのサブセットを微調整する際の有効性に大きなばらつきを観測する。
これは,学習データのサブセットを積極的に選択し,ランク付け者に対して最もポジティブな効果を与えることにより,有効性の向上を図ることができることを示唆する。
これにより、効果的なPLMローダをアノテーション予算の削減で微調整することが可能となる。
そこで我々は,既存のアクティブラーニング(AL)戦略を微調整 PLM ランサーのタスクに適用し,アノテーションや計算コストを考慮し,その効果を検討する。
広範な分析の結果,al戦略はトレーニングサブセットのランダム選択を有効性の観点から大きく上回らないことがわかった。
さらに,al戦略が提供する利益は,一定のアノテーションコストによる効果を比較する際に,より多くの評価(アノテーションコストが高くなる)とal戦略がランダム選択を損なうことの犠牲になることがわかった。
その結果, アノテーションコストが低く, 高い有効性を提供する訓練データの `optimal'' サブセットは存在するが, 現在の主流al戦略はplmランカでは識別できないことがわかった。
関連論文リスト
- Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - OPTune: Efficient Online Preference Tuning [107.44836901099]
オンライン嗜好調整(OPTune)のためのより効率的なデータ探索手法を提案する。
OPTuneは、オン・プライオリティアライメントのための情報応答を動的にサンプリングする。
評価では, 効率的なデータ探索戦略により, OPTune の LLM は 1.27-1.56 倍高速なトレーニング速度を達成している。
論文 参考訳(メタデータ) (2024-06-11T18:55:04Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning [28.059563581973432]
LLM(Large Language Models)は、事前トレーニング中に機密性のある、プライベートな、あるいは著作権のあるデータを持つことが多い。
LLMは、事前学習されたモデルから望ましくないデータの影響を取り除くことを目的としている。
我々は、ターゲットデータセットを効率的に解放できる単純なアライメントにインスパイアされた方法として、NPO(Negative Preference Optimization)を提案する。
論文 参考訳(メタデータ) (2024-04-08T21:05:42Z) - Iterative Loop Learning Combining Self-Training and Active Learning for
Domain Adaptive Semantic Segmentation [1.827510863075184]
この問題を緩和するために、自己学習とアクティブラーニングが提案されている。
本稿では,自己学習とアクティブラーニングを組み合わせた反復ループ学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-31T01:31:43Z) - An Efficient Active Learning Pipeline for Legal Text Classification [2.462514989381979]
法律分野における事前学習言語モデルを用いて,能動的学習を効果的に活用するためのパイプラインを提案する。
我々は、知識蒸留を用いてモデルの埋め込みを意味論的意味のある空間に導く。
分類タスクに適応したContract-NLIとLEDGARベンチマークの実験により,本手法が標準AL戦略より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-15T13:07:02Z) - Ranking Creative Language Characteristics in Small Data Scenarios [52.00161818003478]
DirectRankerを適用して、小さなデータでクリエイティブ言語をランク付けするための、新しいディープモデルを提供します。
スパーストレーニングデータを用いた実験により、標準的なニューラルネットワークのランク付け手法の性能は小さなデータセットで崩壊するが、DirectRankerは依然として有効であることがわかった。
論文 参考訳(メタデータ) (2020-10-23T18:57:47Z) - Semi-supervised Batch Active Learning via Bilevel Optimization [89.37476066973336]
両レベル最適化によるデータ要約問題として,本手法を定式化する。
本手法は,ラベル付きサンプルがほとんど存在しない場合,レジーム内のキーワード検出タスクにおいて極めて有効であることを示す。
論文 参考訳(メタデータ) (2020-10-19T16:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。