論文の概要: Multi-characteristic Subject Selection from Biased Datasets
- arxiv url: http://arxiv.org/abs/2012.10311v1
- Date: Fri, 18 Dec 2020 15:55:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 17:59:05.002101
- Title: Multi-characteristic Subject Selection from Biased Datasets
- Title(参考訳): バイアスデータセットからの多特性主題選択
- Authors: Tahereh Arabghalizi, Alexandros Labrinidis
- Abstract要約: 本稿では,異なる集団群に対する最良サンプリング分数を求める制約付き最適化に基づく手法を提案する。
その結果,提案手法がすべての問題変化のベースラインを最大90%上回っていることが示された。
- 参考スコア(独自算出の注目度): 79.82881947891589
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Subject selection plays a critical role in experimental studies, especially
ones with human subjects. Anecdotal evidence suggests that many such studies,
done at or near university campus settings suffer from selection bias, i.e.,
the too-many-college-kids-as-subjects problem. Unfortunately, traditional
sampling techniques, when applied over biased data, will typically return
biased results. In this paper, we tackle the problem of multi-characteristic
subject selection from biased datasets. We present a constrained
optimization-based method that finds the best possible sampling fractions for
the different population subgroups, based on the desired sampling fractions
provided by the researcher running the subject selection.We perform an
extensive experimental study, using a variety of real datasets. Our results
show that our proposed method outperforms the baselines for all problem
variations by up to 90%.
- Abstract(参考訳): 被験者選択は実験研究、特にヒトの被験者にとって重要な役割を果たす。
逸話的な証拠は、大学のキャンパスで行われている多くの研究は、選択バイアス、すなわち過剰なコラージュ・キッド・アズ・サブジェクト問題に苦しんでいることを示唆している。
残念ながら、従来のサンプリング技術は、バイアスデータの上に適用されると、通常はバイアス結果を返す。
本稿では,バイアス付きデータセットからの複数特徴的主題選択の問題に取り組む。
本稿では,対象選択を行う研究者が所望するサンプリング分数に基づいて,異なる集団群に対して最適なサンプリング分数を求める制約付き最適化に基づく手法を提案する。
その結果,提案手法はすべての問題のベースラインを最大90%上回っていることがわかった。
関連論文リスト
- Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - Going Beyond Popularity and Positivity Bias: Correcting for Multifactorial Bias in Recommender Systems [74.47680026838128]
ユーザインタラクションデータとレコメンダシステム(RS)の2つの典型的なバイアスは、人気バイアスと肯定バイアスである。
項目と評価値の双方に影響される多因子選択バイアスについて検討する。
分散を低減し、最適化の堅牢性を向上させるため、スムースで交互に勾配降下する手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T12:18:21Z) - From Random to Informed Data Selection: A Diversity-Based Approach to
Optimize Human Annotation and Few-Shot Learning [38.30983556062276]
自然言語処理における大きな課題は、教師付き学習のための注釈付きデータを取得することである。
クラウドソーシングは、アノテータの経験、一貫性、バイアスに関連する問題を導入する。
本稿では,数ショット学習のための小さなデータセットを構築するための,自動的および情報的データ選択アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:57:32Z) - Hybrid Sample Synthesis-based Debiasing of Classifier in Limited Data
Setting [5.837881923712393]
本稿では,バイアスに関する事前情報を持たない,より実践的な設定に焦点を当てる。
この設定では、モデルがバイアス予測を発生させるようなバイアスアライメントされたサンプルが多数存在する。
トレーニングデータに制限がある場合、バイアスアライメントされたサンプルの影響がモデル予測にさらに強くなる可能性がある。
論文 参考訳(メタデータ) (2023-12-13T17:04:16Z) - SMoA: Sparse Mixture of Adapters to Mitigate Multiple Dataset Biases [27.56143777363971]
本稿では,複数のデータセットのバイアスを効果的かつ効率的に緩和できる分散混合適応器(SMOA)を提案する。
自然言語推論およびパラフレーズ識別タスクの実験は、SMoAがフルファインタニング、アダプタチューニングベースライン、および以前の強いデバイアス法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-02-28T08:47:20Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Representation Bias in Data: A Survey on Identification and Resolution
Techniques [26.142021257838564]
データ駆動型アルゴリズムは、それらが扱うデータと同程度にしか機能しないが、データセット、特にソーシャルデータはしばしば、マイノリティを適切に表現できない。
データにおける表現バイアスは、歴史的差別から、データ取得と作成方法におけるバイアスのサンプリングまで、さまざまな理由により起こりうる。
本稿では,後日どのように消費されるかに関わらず,表現バイアスをデータセットの特徴として同定し,解決する方法についての文献をレビューする。
論文 参考訳(メタデータ) (2022-03-22T16:30:22Z) - Source data selection for out-of-domain generalization [0.76146285961466]
ソースデータセットの貧弱な選択は、ターゲットのパフォーマンスを低下させる可能性がある。
マルチバンド理論とランダム探索に基づく2つのソース選択手法を提案する。
提案手法は, 利用可能なサンプルのランダムな選択よりも優れた再重み付けされたサブサンプルの存在を診断するものであるとみなすことができる。
論文 参考訳(メタデータ) (2022-02-04T14:37:31Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。