論文の概要: StaICC: Standardized Evaluation for Classification Task in In-context Learning
- arxiv url: http://arxiv.org/abs/2501.15708v1
- Date: Mon, 27 Jan 2025 00:05:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:37.408912
- Title: StaICC: Standardized Evaluation for Classification Task in In-context Learning
- Title(参考訳): StaICC:文脈内学習における分類課題の標準化評価
- Authors: Hakaze Cho, Naoya Inoue,
- Abstract要約: 本稿では,テキスト内分類のための標準化された簡易評価ツールキット(StaICC)を提案する。
通常の分類タスクでは、StaICC-Normalを提供し、10個の広く使われているデータセットを選択し、一定の形式でプロンプトを生成する。
また,複数の側面からICLを診断するためのサブベンチマーク StaICC-Diag も提供し,より堅牢な推論処理を目指している。
- 参考スコア(独自算出の注目度): 3.0531121420837226
- License:
- Abstract: Classification tasks are widely investigated in the In-Context Learning (ICL) paradigm. However, current efforts are evaluated on disjoint benchmarks and settings, while their performances are significantly influenced by some trivial variables, such as prompt templates, data sampling, instructions, etc., which leads to significant inconsistencies in the results reported across various literature, preventing fair comparison or meta-analysis across different papers. Therefore, this paper proposes a standardized and easy-to-use evaluation toolkit (StaICC) for in-context classification. Including, for the normal classification task, we provide StaICC-Normal, selecting 10 widely used datasets, and generating prompts with a fixed form, to mitigate the variance among the experiment implementations. To enrich the usage of our benchmark, we also provide a sub-benchmark StaICC-Diag for diagnosing ICL from several aspects, aiming for a more robust inference processing.
- Abstract(参考訳): 分類タスクは、ICL(In-Context Learning)パラダイムで広く研究されている。
しかし、現在の取り組みは、不整合ベンチマークや設定に基づいて評価されている一方で、それらの性能は、プロンプトテンプレート、データサンプリング、インストラクションなど、いくつかの自明な変数の影響を受けており、様々な文献で報告された結果にかなりの矛盾が生じ、異なる論文間での公正な比較やメタアナリシスが防止されている。
そこで本研究では,テキスト内分類のための標準化された簡易評価ツールキット(StaICC)を提案する。
通常の分類タスクでは、StaICC-Normalを提供し、10個の広く使われているデータセットを選択し、一定の形式でプロンプトを生成し、実験実装間のばらつきを軽減する。
また、ベンチマークの精度を高めるために、より堅牢な推論処理を目的としたICCの診断のためのサブベンチマークであるStaICC-Diagも提供する。
関連論文リスト
- MetaCoCo: A New Few-Shot Classification Benchmark with Spurious Correlation [46.50551811108464]
実世界のシナリオから収集したスプリアス相関シフトを用いたベンチマークを提案する。
また,CLIPを事前学習した視覚言語モデルとして用いたメトリクスを提案する。
実験結果から,既存手法の性能はスプリアス相関シフトの有無で著しく低下することがわかった。
論文 参考訳(メタデータ) (2024-04-30T15:45:30Z) - Exploring Hierarchical Classification Performance for Time Series Data:
Dissimilarity Measures and Classifier Comparisons [0.0]
本研究では,時系列データ解析における階層分類(HC)とフラット分類(FC)の手法の比較性能について検討した。
Jensen-Shannon Distance (JSD), Task similarity Distance (TSD), Based Distance (CBD)などの異種性対策が活用されている。
論文 参考訳(メタデータ) (2024-02-07T21:46:26Z) - XTSC-Bench: Quantitative Benchmarking for Explainers on Time Series
Classification [0.0]
本稿では,TSC説明可能性評価のためのベンチマークツールであるXTSC-Benchを提案する。
我々は,3つの摂動,6つの勾配,2つの例に基づく説明法を解析し,説明者の堅牢性と信頼性の向上が必要であることを示す。
論文 参考訳(メタデータ) (2023-10-23T14:00:02Z) - Mitigating Catastrophic Forgetting in Task-Incremental Continual
Learning with Adaptive Classification Criterion [50.03041373044267]
本稿では,継続的学習のための適応型分類基準を用いた教師付きコントラスト学習フレームワークを提案する。
実験により, CFLは最先端の性能を達成し, 分類基準に比べて克服する能力が強いことが示された。
論文 参考訳(メタデータ) (2023-05-20T19:22:40Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Complementary Labels Learning with Augmented Classes [22.460256396941528]
補完ラベル学習 (Complementary Labels Learning, CLL) は、プライベート質問分類やオンライン学習など、現実世界の多くのタスクに現れる。
CLLAC(Complementary Labels Learning with Augmented Classs)と呼ばれる新しい問題設定を提案する。
ラベルのないデータを用いて,CLLACの分類リスクの偏りのない推定手法を提案する。
論文 参考訳(メタデータ) (2022-11-19T13:55:27Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z) - Personalized Benchmarking with the Ludwig Benchmarking Toolkit [12.347185532330919]
Ludwig Benchmarking Toolkit (LBT)は、エンドツーエンドのベンチマーク研究を行うためのパーソナライズされたベンチマークツールキットである。
LBTは、トレーニングの制御と評価のカスタマイズのためのインターフェース、境界変数の排除のための標準化されたトレーニングフレームワーク、多目的評価のサポートを提供する。
7つのモデルと9つのデータセットにまたがるテキスト分類のための大規模比較分析を用いて、LBTを用いてパーソナライズされたベンチマーク研究を作成する方法を示す。
論文 参考訳(メタデータ) (2021-11-08T03:53:38Z) - When in Doubt: Improving Classification Performance with Alternating
Normalization [57.39356691967766]
分類のための非パラメトリック後処理ステップである交互正規化(CAN)を用いた分類を導入する。
CANは、予測されたクラス確率分布を再調整することで、挑戦的な例の分類精度を向上させる。
多様な分類課題にまたがってその効果を実証的に示す。
論文 参考訳(メタデータ) (2021-09-28T02:55:42Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。