論文の概要: Testing the Assumptions of Active Learning for Translation Tasks with Few Samples
- arxiv url: http://arxiv.org/abs/2604.08977v1
- Date: Fri, 10 Apr 2026 05:30:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.701642
- Title: Testing the Assumptions of Active Learning for Translation Tasks with Few Samples
- Title(参考訳): 少数のサンプルを用いた翻訳作業におけるアクティブラーニングの仮定の検討
- Authors: Lorenzo Jaime Yu Flores, Cesare Spinoso di-Piano, Ori Ernst, David Ifeoluwa Adelani, Jackie Chi Kit Cheung,
- Abstract要約: アクティブラーニング(英: Active Learning、AL)は、テストセットにおけるモデルパフォーマンスを改善するために、アノテーションのラベルのないサンプルを選択するためのトレーニングパラダイムである。
最近の研究によると、AL戦略は100-500サンプルを使用する場合、様々な言語生成タスクにおいてランダムサンプリングを上回りません。
AL戦略が最適化するトレーニングデータの情報性や多様性は,テストセットのパフォーマンスと相関しないことがわかった。
- 参考スコア(独自算出の注目度): 19.843655451516955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active learning (AL) is a training paradigm for selecting unlabeled samples for annotation to improve model performance on a test set, which is useful when only a limited number of samples can be annotated. These algorithms often work by optimizing for the informativeness and diversity of the training data to be annotated. Recent work found that AL strategies fail to outperform random sampling on various language generation tasks when using 100-500 samples. To understand AL's poor performance when only using few samples, we investigate whether the core assumptions underlying AL strategies hold. We find that neither the informativeness nor diversity of the training data, which AL strategies optimize for, are correlated with test set performance. Instead, factors like the ordering of the training samples and interactions with pre-training data have a larger impact on performance. This suggests that future AL methods must take these factors into account in order to work with very few samples.
- Abstract(参考訳): Active Learning(AL)は、アノテーションのラベルのないサンプルを選択して、テストセットのモデルパフォーマンスを改善するためのトレーニングパラダイムである。
これらのアルゴリズムは、アノテートすべきトレーニングデータの情報性と多様性を最適化することで機能することが多い。
最近の研究によると、AL戦略は100-500サンプルを使用する場合、様々な言語生成タスクにおいてランダムサンプリングを上回りません。
サンプルが少ない場合のALの性能の低下を理解するため,AL戦略の根底にある中核的な前提が成立するかどうかを考察する。
AL戦略が最適化するトレーニングデータの情報性や多様性は,テストセットのパフォーマンスと相関しないことがわかった。
代わりに、トレーニングサンプルの順序付けや事前トレーニングデータとのインタラクションといった要因は、パフォーマンスに大きな影響を与えます。
これは、将来のALメソッドは、ごく少数のサンプルを扱うためにこれらの要素を考慮に入れなければならないことを示唆している。
関連論文リスト
- Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [50.492124556982674]
本稿では,新しい選択型サンプル選択フレームワークを提案する。
個々のサンプル品質の評価から、異なるサンプルのコントリビューション値の比較へと焦点をシフトする。
われわれのアプローチをより大きな医療データセットで検証し、現実の応用における実用性を強調した。
論文 参考訳(メタデータ) (2025-03-04T07:32:41Z) - Dataset Quantization with Active Learning based Adaptive Sampling [11.157462442942775]
また, 不均一なサンプル分布であっても, 性能維持が可能であることを示す。
サンプル選択を最適化するために,新しい能動的学習に基づく適応型サンプリング手法を提案する。
提案手法は,最先端のデータセット圧縮手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T23:09:18Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - Active Learning at the ImageNet Scale [43.595076693347835]
本研究では,画像ネット上でのアクティブラーニング(AL)と事前学習(SSP)の組み合わせについて検討する。
学習者が選択したクラス不均衡なサンプルから,小型の玩具データセットのパフォーマンスがImageNetのパフォーマンスを表すものではないことが判明した。
本稿では、ランダムサンプリングを一貫して上回る、単純でスケーラブルなALアルゴリズムであるBa balanced Selection (BASE)を提案する。
論文 参考訳(メタデータ) (2021-11-25T02:48:51Z) - Reducing Confusion in Active Learning for Part-Of-Speech Tagging [100.08742107682264]
アクティブラーニング(AL)は、データ選択アルゴリズムを使用して、アノテーションコストを最小限に抑えるために有用なトレーニングサンプルを選択する。
本研究では、特定の出力タグのペア間の混乱を最大に低減するインスタンスの選択問題について検討する。
提案するAL戦略は,他のAL戦略よりも有意差で優れている。
論文 参考訳(メタデータ) (2020-11-02T06:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。