論文の概要: Retrieval-based Text Selection for Addressing Class-Imbalanced Data in
Classification
- arxiv url: http://arxiv.org/abs/2307.14899v1
- Date: Thu, 27 Jul 2023 14:42:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 14:22:28.384875
- Title: Retrieval-based Text Selection for Addressing Class-Imbalanced Data in
Classification
- Title(参考訳): 検索型テキスト選択によるクラス不均衡データの分類
- Authors: Sareh Ahmadi, Aditya Shah, Edward Fox
- Abstract要約: 本稿では,テキスト分類における注釈用テキストの集合を検索手法を用いて選択する問題に対処する。
もうひとつの課題は、少数の正のインスタンスを持つバイナリカテゴリを扱うことだ。
そこで本研究では,アノテーションのための少数のテキストを選択し,高品質な分類器を構築するための効果的な方法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of selecting of a set of texts for
annotation in text classification using retrieval methods when there are limits
on the number of annotations due to constraints on human resources. An
additional challenge addressed is dealing with binary categories that have a
small number of positive instances, reflecting severe class imbalance. In our
situation, where annotation occurs over a long time period, the selection of
texts to be annotated can be made in batches, with previous annotations guiding
the choice of the next set. To address these challenges, the paper proposes
leveraging SHAP to construct a quality set of queries for Elasticsearch and
semantic search, to try to identify optimal sets of texts for annotation that
will help with class imbalance. The approach is tested on sets of cue texts
describing possible future events, constructed by participants involved in
studies aimed to help with the management of obesity and diabetes. We introduce
an effective method for selecting a small set of texts for annotation and
building high-quality classifiers. We integrate vector search, semantic search,
and machine learning classifiers to yield a good solution. Our experiments
demonstrate improved F1 scores for the minority classes in binary
classification.
- Abstract(参考訳): 本稿では,人的資源の制約によるアノテーションの数に制限がある場合に,検索手法を用いたテキスト分類におけるアノテーションの集合の選択の問題に対処する。
さらに対処される課題は、厳しいクラス不均衡を反映して、少数のポジティブなインスタンスを持つバイナリカテゴリを扱うことだ。
アノテーションが長期間にわたって発生する状況では、アノテーションを付加するテキストの選択はバッチで行うことができ、以前のアノテーションは次のセットの選択を導く。
これらの課題に対処するため, SHAPを用いてElasticsearchとセマンティック検索のための高品質なクエリセットを構築し, クラス不均衡に寄与するアノテーションのための最適なテキストセットを特定することを提案する。
このアプローチは、肥満と糖尿病の管理を支援する研究に携わる参加者によって構築された、将来の出来事を記述した一連の手がかりテキストに基づいてテストされる。
本稿では,アノテーションのためのテキストセットの選択と,高品質な分類器の構築に有効な方法を提案する。
ベクトル検索、セマンティック検索、機械学習分類器を統合して、優れたソリューションを実現します。
本実験は,二進分類におけるマイノリティクラスに対するF1スコアの改善を実証した。
関連論文リスト
- Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - IDEAL: Influence-Driven Selective Annotations Empower In-Context
Learners in Large Language Models [66.32043210237768]
本稿では,影響駆動型選択的アノテーション手法を提案する。
アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。
様々なベンチマークで提案手法の優位性を確認する実験を行った。
論文 参考訳(メタデータ) (2023-10-16T22:53:54Z) - Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。
本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T04:04:47Z) - Task-Specific Embeddings for Ante-Hoc Explainable Text Classification [6.671252951387647]
テキストのタスク固有の埋め込みを学習する学習目標を提案する。
提案する目的は,同一のクラスラベルを共有するすべてのテキストが近接しているように埋め込みを学習することである。
本研究は, 総合的な分類精度において, アンテホックな説明可能性と漸進的な学習の利点が無コストで得られることを示す広範囲な実験である。
論文 参考訳(メタデータ) (2022-11-30T19:56:25Z) - Classifiers are Better Experts for Controllable Text Generation [63.17266060165098]
提案手法は, PPLにおける最近のPPLM, GeDi, DExpertsよりも有意に優れており, 生成したテキストの外部分類器に基づく感情の精度が高いことを示す。
同時に、実装やチューニングも簡単で、制限や要件も大幅に少なくなります。
論文 参考訳(メタデータ) (2022-05-15T12:58:35Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - Conical Classification For Computationally Efficient One-Class Topic
Determination [0.0]
本稿では,特定のトピックに関連する文書を識別するコニカル分類手法を提案する。
分析の結果、我々のアプローチはデータセットの予測能力が高く、計算も高速であることがわかった。
論文 参考訳(メタデータ) (2021-10-31T01:27:12Z) - OPAD: An Optimized Policy-based Active Learning Framework for Document
Content Analysis [6.159771892460152]
文書のコンテンツ検出タスクにおける能動的学習のための強化ポリシーを用いた新しいフレームワークであるtextitOPADを提案する。
フレームワークは、取得機能を学び、パフォーマンスメトリクスを最適化しながら、選択するサンプルを決定する。
本稿では,文書理解に関わる様々なタスクに対する能動的学習のためのテキストOPADフレームワークの優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-01T07:40:56Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - Rank over Class: The Untapped Potential of Ranking in Natural Language
Processing [8.637110868126546]
我々は、現在分類を用いて対処されている多くのタスクが、実際には分類モールドに切り替わっていると論じる。
本稿では,一対のテキストシーケンスの表現を生成するトランスフォーマーネットワークからなる新しいエンドツーエンドランキング手法を提案する。
重く歪んだ感情分析データセットの実験では、ランキング結果を分類ラベルに変換すると、最先端のテキスト分類よりも約22%改善する。
論文 参考訳(メタデータ) (2020-09-10T22:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。