論文の概要: Fairness for Text Classification Tasks with Identity Information Data
Augmentation Methods
- arxiv url: http://arxiv.org/abs/2203.03541v1
- Date: Fri, 4 Feb 2022 07:08:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-13 17:30:28.756328
- Title: Fairness for Text Classification Tasks with Identity Information Data
Augmentation Methods
- Title(参考訳): 識別情報データ拡張法によるテキスト分類タスクの公平性
- Authors: Mohit Wadhwa, Mohan Bhambhani, Ashvini Jindal, Uma Sawant, Ramanujam
Madhavan
- Abstract要約: メソッドは、与えられたトレーニングとテストセットインスタンスのカウンターファクトを生成することに基づいています。
2段階の強化プロセスが多様なアイデンティティペアと強化されたトレーニングセットにつながることを実証的に示す。
- 参考スコア(独自算出の注目度): 2.5199066832791535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Counterfactual fairness methods address the question: How would the
prediction change if the sensitive identity attributes referenced in the text
instance were different? These methods are entirely based on generating
counterfactuals for the given training and test set instances. Counterfactual
instances are commonly prepared by replacing sensitive identity terms, i.e.,
the identity terms present in the instance are replaced with other identity
terms that fall under the same sensitive category. Therefore, the efficacy of
these methods depends heavily on the quality and comprehensiveness of identity
pairs. In this paper, we offer a two-step data augmentation process where (1)
the former stage consists of a novel method for preparing a comprehensive list
of identity pairs with word embeddings, and (2) the latter consists of
leveraging prepared identity pairs list to enhance the training instances by
applying three simple operations (namely identity pair replacement, identity
term blindness, and identity pair swap). We empirically show that the two-stage
augmentation process leads to diverse identity pairs and an enhanced training
set, with an improved counterfactual token-based fairness metric score on two
well-known text classification tasks.
- Abstract(参考訳): テキストインスタンスで参照されるセンシティブなアイデンティティ属性が異なる場合、予測はどのように変化するのか?
これらのメソッドは、与えられたトレーニングとテストセットインスタンスの偽物を生成することに完全に基づいています。
反事実インスタンスは一般的に、そのインスタンスに存在する識別用語を、同じ機密カテゴリに属する他の識別用語に置き換えることによって作成される。
したがって、これらの手法の有効性はアイデンティティペアの品質と包括性に大きく依存する。
本稿では,(1)前段階が単語埋め込みによるアイデンティティペアの包括的リストを作成する新しい方法,(2)前段階が3つの単純な操作(アイデンティティペア置換,アイデンティティ項盲点,アイデンティティペアスワップ)を適用してトレーニングインスタンスを強化するためのidペアリストを利用する2段階データ拡張プロセスを提案する。
2段階の増補プロセスが多様なアイデンティティペアと強化されたトレーニングセットにつながり、2つのよく知られたテキスト分類タスクにおいて、反事実的トークンベースの公平度メトリックスコアが改善されたことを実証的に示す。
関連論文リスト
- Multi-Class Textual-Inversion Secretly Yields a Semantic-Agnostic Classifier [20.95472997379712]
テキスト・ツー・イメージ(T2I)パーソナライズ手法は,新しいトークンを学習することで,概念の見当たらないものにT2Iモデルを適応することを目的としている。
新たな概念トークンは,各カテゴリを一つの概念として扱うことにより,生成能力と分類能力の両方を有することを示す。
トークン更新プロセスの識別正則化項を含むマルチクラステキストインバージョンを提案する。
論文 参考訳(メタデータ) (2024-10-29T17:55:02Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - A Fixed-Point Approach to Unified Prompt-Based Counting [51.20608895374113]
本研究の目的は,ボックス,ポイント,テキストなど,さまざまなプロンプト型で示されるオブジェクトの密度マップを生成することができる包括的プロンプトベースのカウントフレームワークを確立することである。
本モデルは,クラスに依存しない顕著なデータセットに優れ,データセット間の適応タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-15T12:05:44Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文 参考訳(メタデータ) (2023-05-26T06:50:21Z) - Improving Self-training for Cross-lingual Named Entity Recognition with
Contrastive and Prototype Learning [80.08139343603956]
言語横断的な実体認識において、自己学習は言語的ギャップを埋めるために一般的に用いられる。
本研究では,表現学習と擬似ラベル改善を組み合わせることで,言語間NERの自己学習を改善することを目的とする。
提案手法,すなわちContProtoは主に,(1)コントラスト型自己学習と(2)プロトタイプベース擬似ラベルの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-05-23T02:52:16Z) - X-ReID: Cross-Instance Transformer for Identity-Level Person
Re-Identification [53.047542904329866]
Cross-Identity Instancesモジュール(IntraX)は、ID-Levelの知識を転送するために、異なるIdentityインスタンスをフューズする。
Cross Inter-Identity Instancesモジュール(InterX)は、同じアイデンティティに対する注意応答を改善するために、ハードポジティとハードポジティのインスタンスを含む。
論文 参考訳(メタデータ) (2023-02-04T03:16:18Z) - Identity Documents Authentication based on Forgery Detection of
Guilloche Pattern [2.606834301724095]
ギロシェパターンの偽造検出に基づく識別文書の認証モデルを提案する。
認証性能を高めるために、最も適切なパラメータを分析し、識別するために実験を行う。
論文 参考訳(メタデータ) (2022-06-22T11:37:10Z) - Single versus Multiple Annotation for Named Entity Recognition of
Mutations [4.213427823201119]
我々は,複数のアノテータが必要かどうかを測定するために,1つのアノテータ対2のアノテータによる影響について論じる。
単一アノテータを使用する場合のパフォーマンス損失を評価すると、第2のアノテーションのためにトレーニングデータをサンプルするために異なる方法を適用する。
保持されたダブルアノテートデータを使用して、異なるタイプのランキングを持つ2つのシナリオを構築します。
i)誤ったトレーニングインスタンスを識別する能力、(ii)最先端技術におけるミューテーションNERのパフォーマンスについて、両方のアプローチを評価する。
論文 参考訳(メタデータ) (2021-01-19T03:54:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。