論文の概要: Exploring Imbalanced Annotations for Effective In-Context Learning
- arxiv url: http://arxiv.org/abs/2502.04037v2
- Date: Fri, 30 May 2025 03:11:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 15:03:33.834521
- Title: Exploring Imbalanced Annotations for Effective In-Context Learning
- Title(参考訳): 効果的なインコンテキスト学習のための不均衡アノテーションの探索
- Authors: Hongfu Gao, Feipeng Zhang, Hao Zeng, Deyu Meng, Bingyi Jing, Hongxin Wei,
- Abstract要約: 大規模言語モデル (LLM) は、文脈内学習 (ICL) を通じて下流タスクに顕著な性能を示す。
本研究では,このようなクラス不均衡が多種多様なタスクにおけるICL性能を著しく低下させることを示す。
クラス不均衡下でのICL性能を向上させるために,条件付きバイアスを用いた条件付きリヘアリングを提案する。
- 参考スコア(独自算出の注目度): 41.618125904839424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown impressive performance on downstream tasks through in-context learning (ICL), which heavily relies on the demonstrations selected from annotated datasets. However, these datasets often exhibit long-tailed class distributions in real-world scenarios, leading to biased demonstration selection. In this work, we show that such class imbalances significantly degrade the ICL performance across various tasks, regardless of selection methods. Moreover, classical rebalancing methods, which focus solely on class weights, yield poor performance due to neglecting condition bias--skewed feature distributions within classes. To address this, we propose Reweighting with Conditional Bias (dubbed RCB), a simple and complementary approach to enhance ICL performance under class imbalance. In particular, RCB estimates conditional bias using a balanced subset and re-weights demonstration scores based on both class weight and conditional bias. In effect, RCB prevents over-selection from dominant classes while preserving the efficacy of current selection methods. Extensive experiments on common benchmarks demonstrate the effectiveness of our method, improving the average accuracy of current selection methods by up to 5.42%.
- Abstract(参考訳): 大規模言語モデル(LLM)は、アノテーション付きデータセットから選択したデモに大きく依存する、コンテキスト内学習(ICL)を通じて、下流タスクで顕著なパフォーマンスを示している。
しかしながら、これらのデータセットは、しばしば実世界のシナリオで長い尾のクラス分布を示し、偏りのあるデモ選択をもたらす。
そこで本研究では,選択手法に関係なく,様々なタスクにおけるICL性能が著しく低下することを示す。
さらに,クラスウェイトのみに焦点をあてた古典的再バランス手法では,クラス内の特徴分布の偏りを無視するため,性能が低下する。
そこで本稿では,クラス不均衡下でのICL性能向上のための簡易かつ相補的な手法であるReweighting with Conditional Bias (dubbed RCB)を提案する。
特に、RCBは、バランスの取れたサブセットと、クラスウェイトと条件バイアスの両方に基づいて、再重み付けのデモスコアを用いて条件バイアスを推定する。
事実上、RCBは、現在の選択方法の有効性を保ちながら、支配階級からの過剰選択を防いでいる。
提案手法の有効性を実証し, 提案手法の平均選択精度を最大5.42%向上させた。
関連論文リスト
- Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - BASIL: Balanced Active Semi-supervised Learning for Class Imbalanced
Datasets [14.739359755029353]
現在の半教師付き学習(SSL)メソッドは、ラベル付きデータセットとラベルなしデータセットの両方で、各クラスで利用可能なデータポイントの数の間のバランスを前提としている。
本研究では,サブモジュール相互情報(SMI)関数をクラスごとに最適化し,アクティブな学習ループにおけるバランスの取れたデータセットを徐々に選択するアルゴリズムであるBASILを提案する。
論文 参考訳(メタデータ) (2022-03-10T21:34:08Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Minority Class Oriented Active Learning for Imbalanced Datasets [6.009262446889319]
本研究では,不均衡なデータセットを対象とした新しいアクティブ学習手法を提案する。
これは、ラベル付きサブセットの不均衡を減らすために、マイノリティクラスにある可能性が高いサンプルを好む。
また、アクティブラーニングのための2つのトレーニングスキームを比較した。
論文 参考訳(メタデータ) (2022-02-01T13:13:41Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Sequential Targeting: an incremental learning approach for data
imbalance in text classification [7.455546102930911]
不均衡なデータセットを扱う方法は、分散スキューを軽減するために不可欠である。
本稿では,提案手法の有効性によらず,新たなトレーニング手法であるシーケンスターゲティング(ST)を提案する。
シミュレーションベンチマークデータセット(IMDB)とNAVERから収集したデータを用いて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2020-11-20T04:54:00Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。