論文の概要: FairLex: A Multilingual Benchmark for Evaluating Fairness in Legal Text
Processing
- arxiv url: http://arxiv.org/abs/2203.07228v1
- Date: Mon, 14 Mar 2022 16:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 19:49:58.755046
- Title: FairLex: A Multilingual Benchmark for Evaluating Fairness in Legal Text
Processing
- Title(参考訳): FairLex: 法的テキスト処理の公平性を評価するための多言語ベンチマーク
- Authors: Ilias Chalkidis, Tommaso Pasini, Sheng Zhang, Letizia Tomada,
Sebastian Felix Schwemer, Anders S{\o}gaard
- Abstract要約: 本稿では,事前学習した言語モデルの公平性を評価するための4つのデータセットのベンチマークスイートを提案する。
われわれのベンチマークでは、欧州理事会、米国、スイス、中国)、5つの言語(英語、ドイツ語、フランス語、イタリア語、中国語)、そして5つの属性の公平性について調べています。
- 参考スコア(独自算出の注目度): 25.66326536202593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a benchmark suite of four datasets for evaluating the fairness of
pre-trained language models and the techniques used to fine-tune them for
downstream tasks. Our benchmarks cover four jurisdictions (European Council,
USA, Switzerland, and China), five languages (English, German, French, Italian
and Chinese) and fairness across five attributes (gender, age, region,
language, and legal area). In our experiments, we evaluate pre-trained language
models using several group-robust fine-tuning techniques and show that
performance group disparities are vibrant in many cases, while none of these
techniques guarantee fairness, nor consistently mitigate group disparities.
Furthermore, we provide a quantitative and qualitative analysis of our results,
highlighting open challenges in the development of robustness methods in legal
NLP.
- Abstract(参考訳): 本稿では,事前学習された言語モデルの公平性を評価するための4つのデータセットのベンチマークスイートと,それらを下流タスクに微調整する手法を提案する。
私たちのベンチマークでは、欧州評議会、米国、スイス、中国)、5つの言語(英語、ドイツ語、フランス語、イタリア語、中国語)、そして5つの属性(性別、年齢、地域、言語、法域)の公平性について調べています。
実験では,複数のグループロバストな微調整手法を用いて事前学習言語モデルの評価を行い,性能群格差が活発であることを示すが,いずれの手法も公平性は保証せず,グループ格差を一定に緩和するものではない。
さらに, 法的なNLPにおけるロバストネス法の開発におけるオープンな課題を浮き彫りにして, 定量的, 質的な分析を行った。
関連論文リスト
- Benchmarking Multimodal Models for Ukrainian Language Understanding Across Academic and Cultural Domains [0.0]
大学入試(ZNO)から得られた総合的マルチモーダルウクライナ中心ベンチマークZNO-Visionを紹介する。
このベンチマークは、数学、物理学、化学、人文科学など12の分野にまたがる4300以上の専門家による質問で構成されている。
新しいベンチマークとともに、ウクライナ語のマルチモーダルテキスト生成に関する最初の評価研究を行った。
論文 参考訳(メタデータ) (2024-11-22T00:37:49Z) - What Is Missing in Multilingual Visual Reasoning and How to Fix It [64.47951359580556]
視覚的推論タスクを用いてNLPモデルの多言語・多モーダル機能を評価する。
GPT-4Vのようなプロプライエタリなシステムは、現在このタスクで最高のパフォーマンスを得るが、オープンモデルは比較に遅れている。
我々の介入はゼロショット設定でこのタスク上で最高のオープンパフォーマンスを実現し、オープンモデルLLaVAを13.4%向上させる。
論文 参考訳(メタデータ) (2024-03-03T05:45:27Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - Large Language Models Are State-of-the-Art Evaluators of Translation
Quality [7.818228526742237]
GEMBAは、翻訳品質を評価するためのGPTベースのメトリクスである。
本稿では,ChatGPTとGPT-4を含む9種類のGPTモデルについて検討する。
本手法は, MQMに基づく人間ラベルと比較した場合, 両モードで最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-02-28T12:23:48Z) - The unreasonable effectiveness of few-shot learning for machine
translation [45.502857360503235]
我々は,高解像度と低解像度の両言語ペアに対して,未ペア言語データで訓練された少数ショット翻訳システムの可能性を実証する。
自己教師付き学習のみで訓練されたトランスフォーマーデコーダのみのモデルが、専門的な教師付き最先端モデルと一致することを示す。
論文 参考訳(メタデータ) (2023-02-02T20:19:46Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Harnessing Multilinguality in Unsupervised Machine Translation for Rare
Languages [48.28540903568198]
マルチリンガル性は低リソース環境において教師なしシステムの実現に不可欠であることを示す。
我々は,5つの低リソース言語(グジャラート語,カザフ語,ネパール語,シンハラ語,トルコ語)について,英語方向と英語方向の単一モデルを提案する。
我々は、これらの言語の現在最先端の教師なしベースラインを全て上回り、最大14.4BLEUのゲインを得る。
論文 参考訳(メタデータ) (2020-09-23T15:07:33Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。