Fugu-MT 論文翻訳(概要): Counterfactual Multi-Token Fairness in Text Classification

論文の概要: Counterfactual Multi-Token Fairness in Text Classification

arxiv url: http://arxiv.org/abs/2202.03792v1
Date: Tue, 8 Feb 2022 11:30:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-09 22:40:51.771661
Title: Counterfactual Multi-Token Fairness in Text Classification
Title（参考訳）: テキスト分類における対実的マルチトークンフェアネス
Authors: Pranay Lohia
Abstract要約: 対実生成の概念は、あらゆる形式のテキストや文書に有効なマルチトークンサポートにまで拡張されている。我々は、複数の機密トークンをtextbfCounterfactual Multi-token Generation として摂動することで、偽造語を生成する方法を定義する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The counterfactual token generation has been limited to perturbing only a single token in texts that are generally short and single sentences. These tokens are often associated with one of many sensitive attributes. With limited counterfactuals generated, the goal to achieve invariant nature for machine learning classification models towards any sensitive attribute gets bounded, and the formulation of Counterfactual Fairness gets narrowed. In this paper, we overcome these limitations by solving root problems and opening bigger domains for understanding. We have curated a resource of sensitive tokens and their corresponding perturbation tokens, even extending the support beyond traditionally used sensitive attributes like \textit{Age}, \textit{Gender}, and \textit{Race} to \textit{Nationality}, \textit{Disability}, and \textit{Religion}. The concept of Counterfactual Generation has been extended to multi-token support valid over all forms of texts and documents. We define the method of generating counterfactuals by perturbing multiple sensitive tokens as \textbf{Counterfactual Multi-token Generation}. The method has been conceptualized to showcase significant performance improvement over single-token methods and validated over multiple benchmark datasets. The emendation in counterfactual generation propagates in achieving improved \textbf{Counterfactual Multi-token Fairness}.
Abstract（参考訳）: 偽造トークンの生成は、一般的に短文で単一の文である1つのトークンだけを摂動することに限定されている。これらのトークンは、しばしば多くの繊細な属性の1つに関連付けられる。反事実が生成されると、任意の機密属性に対する機械学習分類モデルの不変性を達成するという目標が限定され、反事実公平性の定式化が狭まる。本稿では,根の問題を解き,理解のためにより大きな領域を開くことで,これらの限界を克服する。我々は、機密トークンとその対応する摂動トークンのリソースをキュレートし、サポートを従来の機密属性である \textit{Age}、 \textit{Gender}、 \textit{Race} から \textit{Nationality}、 \textit{Disability}、 \textit{Religion} に拡張しました。対実生成の概念は、あらゆる形式のテキストや文書に有効なマルチトークンサポートにまで拡張されている。複数の機密トークンを摂動させることで反事実を生成する方法を \textbf{counterfactual multi-token generation} と定義する。この手法は、シングルトーケン方式よりも大幅な性能向上を示すために概念化され、複数のベンチマークデータセット上で検証されている。反ファクト生成における評価は、改善された「textbf{Counterfactual Multi-token Fairness}」を達成する際に伝播する。

関連論文リスト

Improving Large Language Models with Concept-Aware Fine-Tuning [55.59287380665864]
概念認識ファインチューニング(CAFT)は,大規模言語モデル(LLM)のための新しいマルチトークン学習手法である CAFTは複数のトークンにまたがるシーケンスの学習を可能にし、より強力な概念認識学習を促進する。実験は、従来の次世代ファインタニング法と比較して大幅に改善された。
論文参考訳（メタデータ） (2025-06-09T14:55:00Z)
Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文参考訳（メタデータ） (2025-05-24T10:26:27Z)
Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning [0.0]
事前訓練された言語モデル(LLM)は固定トークン化方式によって制約されることが多い。 Tokenadaptは、モデルに依存しないトークン化剤の移植方法である。本フレームワークでは, モデルに依存しないトークン化剤の移植法であるTokenadaptと, マルチワードスーパートークンの新規プリトークン化の2つの革新を紹介した。
論文参考訳（メタデータ） (2025-05-14T19:00:27Z)
Disentangling Reasoning Tokens and Boilerplate Tokens For Language Model Fine-tuning [46.43130011147807]
特に、トークンとボイラープレートトークンの推論は、重要性と学習の複雑さにおいて大きく異なります。本稿では,適応トークン識別のための新しいShuffle-Aware Discriminator (SHAD)を提案する。 SHADを用いて、微調整中の推論トークンを適応的に強調するReasoning-Highlighted Fine-Tuning (RFT)法を提案する。
論文参考訳（メタデータ） (2024-12-19T12:06:24Z)
ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文参考訳（メタデータ） (2024-10-10T20:54:15Z)
STORE: Streamlining Semantic Tokenization and Generative Recommendation with A Single LLM [59.08493154172207]
本稿では,意味的トークン化と生成的レコメンデーションプロセスを合理化する統合フレームワークを提案する。我々は,意味的トークン化をテキスト・ツー・ケントタスクとして定式化し,生成的推薦をトークン・ツー・ケントタスクとして,トークン・ツー・ケント・コンストラクションタスクとテキスト・ツー・ケント補助タスクで補足する。これらのタスクはすべて生成的な方法でフレーム化され、単一の大規模言語モデル(LLM)バックボーンを使用してトレーニングされる。
論文参考訳（メタデータ） (2024-09-11T13:49:48Z)
SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。 SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文参考訳（メタデータ） (2024-05-24T13:35:56Z)
Token Alignment via Character Matching for Subword Completion [34.76794239097628]
本稿では,生成モデルにおけるテキスト補完におけるトークン化アーティファクトの緩和手法について検討する。この手法はトークンアライメントと呼ばれ、最後の完全なトークンをバックトラックし、モデルの生成がプロンプトと整合することを保証する。
論文参考訳（メタデータ） (2024-03-13T16:44:39Z)
Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文参考訳（メタデータ） (2023-12-02T04:29:19Z)
mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。 40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文参考訳（メタデータ） (2023-08-17T16:02:29Z)
Beyond Attentive Tokens: Incorporating Token Importance and Diversity for Efficient Vision Transformers [32.972945618608726]
視覚変換器は様々な視覚タスクにおいて大幅に改善されているが、トークン間の2次相互作用は計算効率を大幅に低下させた。本稿では,トークン分離におけるトークンの重要性と多様性を共同で検討できる,効率的なトークン分離とマージ手法を提案する。 FLOPを40%削減した後,DeiT-Tの精度を0.1%向上させることができる。
論文参考訳（メタデータ） (2022-11-21T09:57:11Z)
Practical Approaches for Fair Learning with Multitype and Multivariate Sensitive Attributes [70.6326967720747]
現実世界に展開された機械学習アルゴリズムが不公平さや意図しない社会的結果をもたらすことはないことを保証することが重要である。本稿では,カーネルHilbert Spacesの相互共分散演算子上に構築されたフェアネス尺度であるFairCOCCOを紹介する。実世界のデータセットにおける予測能力と公正性のバランスをとる上で、最先端技術に対する一貫した改善を実証的に示す。
論文参考訳（メタデータ） (2022-11-11T11:28:46Z)
Flexible text generation for counterfactual fairness probing [8.262741696221143]
テキストベースの分類器における公平性問題をテストする一般的なアプローチは、偽造品の使用である。既存の偽物生成方法はワードリストやテンプレートに依存しており、文法や文脈、微妙な属性参照を考慮していない単純な偽物を生成する。本稿では,これらの欠点を克服し,大規模言語モデル(LLM)をいかに活用してその課題を進展させるかを示す。
論文参考訳（メタデータ） (2022-06-28T05:07:20Z)
Token Manipulation Generative Adversarial Network for Text Generation [0.0]
我々は条件付きテキスト生成問題を,make-a-blank と fill-in-blank の2つのタスクに分解し,前者を拡張してより複雑なトークン操作を行う。提案モデルでは,限界に対処するだけでなく,品質や多様性の面で性能を損なうことなく良好な結果が得られることを示す。
論文参考訳（メタデータ） (2020-05-06T13:10:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。