論文の概要: Exploring Imbalanced Annotations for Effective In-Context Learning
- arxiv url: http://arxiv.org/abs/2502.04037v1
- Date: Thu, 06 Feb 2025 12:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:33:58.787739
- Title: Exploring Imbalanced Annotations for Effective In-Context Learning
- Title(参考訳): 効果的なインコンテキスト学習のための不均衡アノテーションの探索
- Authors: Hongfu Gao, Feipeng Zhang, Hao Zeng, Deyu Meng, Bingyi Jing, Hongxin Wei,
- Abstract要約: 注釈付きデータセットにおける不均衡なクラス分布は、文脈内学習(ICL)の性能を著しく低下させることを示した。
本手法は,アノテートデータセットとテストデータセットの分布差を2成分重みに分解する。
提案手法は,従来の選択手法の有効性を保ちながら,単一のクラスから過剰なデモを選択することを防止する。
- 参考スコア(独自算出の注目度): 41.618125904839424
- License:
- Abstract: Large language models (LLMs) have shown impressive performance on downstream tasks through in-context learning (ICL), which heavily relies on the demonstrations selected from annotated datasets. Existing selection methods may hinge on the distribution of annotated datasets, which can often be long-tailed in real-world scenarios. In this work, we show that imbalanced class distributions in annotated datasets significantly degrade the performance of ICL across various tasks and selection methods. Moreover, traditional rebalance methods fail to ameliorate the issue of class imbalance in ICL. Our method is motivated by decomposing the distributional differences between annotated and test datasets into two-component weights: class-wise weights and conditional bias. The key idea behind our method is to estimate the conditional bias by minimizing the empirical error on a balanced validation dataset and to employ the two-component weights to modify the original scoring functions during selection. Our approach can prevent selecting too many demonstrations from a single class while preserving the effectiveness of the original selection methods. Extensive experiments demonstrate the effectiveness of our method, improving the average accuracy by up to 5.46 on common benchmarks with imbalanced datasets.
- Abstract(参考訳): 大規模言語モデル(LLM)は、アノテーション付きデータセットから選択したデモに大きく依存する、コンテキスト内学習(ICL)を通じて、下流タスクで顕著なパフォーマンスを示している。
既存の選択方法は、注釈付きデータセットの分布にヒンジすることがある。
本研究では、注釈付きデータセットにおける不均衡なクラス分布が、様々なタスクや選択方法におけるICLの性能を著しく低下させることを示す。
さらに、従来のリバランス手法では、ICLにおけるクラス不均衡の問題を改善することができない。
本手法は,アノテートデータセットとテストデータセットの分布差を,クラスワイド重みと条件偏差の2成分重みに分解することで動機付けを行う。
提案手法の背景にある重要な考え方は,バランス検証データセット上の経験的誤差を最小限に抑えて条件バイアスを推定し,選択中に元のスコアリング関数を変更するために2成分重みを用いることである。
提案手法は,従来の選択手法の有効性を保ちながら,単一のクラスから過剰なデモを選択することを防止する。
本手法の有効性を実証し,不均衡なデータセットを持つ一般的なベンチマークにおいて,平均精度を5.46倍に向上させる実験を行った。
関連論文リスト
- Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - BASIL: Balanced Active Semi-supervised Learning for Class Imbalanced
Datasets [14.739359755029353]
現在の半教師付き学習(SSL)メソッドは、ラベル付きデータセットとラベルなしデータセットの両方で、各クラスで利用可能なデータポイントの数の間のバランスを前提としている。
本研究では,サブモジュール相互情報(SMI)関数をクラスごとに最適化し,アクティブな学習ループにおけるバランスの取れたデータセットを徐々に選択するアルゴリズムであるBASILを提案する。
論文 参考訳(メタデータ) (2022-03-10T21:34:08Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Minority Class Oriented Active Learning for Imbalanced Datasets [6.009262446889319]
本研究では,不均衡なデータセットを対象とした新しいアクティブ学習手法を提案する。
これは、ラベル付きサブセットの不均衡を減らすために、マイノリティクラスにある可能性が高いサンプルを好む。
また、アクティブラーニングのための2つのトレーニングスキームを比較した。
論文 参考訳(メタデータ) (2022-02-01T13:13:41Z) - Sequential Targeting: an incremental learning approach for data
imbalance in text classification [7.455546102930911]
不均衡なデータセットを扱う方法は、分散スキューを軽減するために不可欠である。
本稿では,提案手法の有効性によらず,新たなトレーニング手法であるシーケンスターゲティング(ST)を提案する。
シミュレーションベンチマークデータセット(IMDB)とNAVERから収集したデータを用いて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2020-11-20T04:54:00Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。