論文の概要: The BIAS Detection Framework: Bias Detection in Word Embeddings and Language Models for European Languages
- arxiv url: http://arxiv.org/abs/2407.18689v1
- Date: Fri, 26 Jul 2024 12:13:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 13:30:50.944068
- Title: The BIAS Detection Framework: Bias Detection in Word Embeddings and Language Models for European Languages
- Title(参考訳): BIAS検出フレームワーク:ヨーロッパ言語における単語埋め込みと言語モデルにおけるバイアス検出
- Authors: Alexandre Puttick, Leander Rankwiler, Catherine Ikae, Mascha Kurpicz-Briki,
- Abstract要約: BIASは欧州委員会が出資し、教育・研究・革新のためのスイス国家事務局(SERI)が支援する4年間のプロジェクトである。
言語モデルにおける社会的バイアスを識別する新たなバイアス検出法と、ヨーロッパの言語における単語埋め込みを開発した。
本技術報告ではBIAS Detection Frameworkのアーキテクチャとコンポーネントについて述べる。
- 参考スコア(独自算出の注目度): 40.07796496582141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The project BIAS: Mitigating Diversity Biases of AI in the Labor Market is a four-year project funded by the European commission and supported by the Swiss State Secretariat for Education, Research and Innovation (SERI). As part of the project, novel bias detection methods to identify societal bias in language models and word embeddings in European languages are developed, with particular attention to linguistic and geographic particularities. This technical report describes the overall architecture and components of the BIAS Detection Framework. The code described in this technical report is available and will be updated and expanded continuously with upcoming results from the BIAS project. The details about the datasets for the different languages are described in corresponding papers at scientific venues.
- Abstract(参考訳): BIAS: Mitigating Diversity Biases of AI in the Labor Marketは、欧州委員会が資金提供し、スイス教育・研究・イノベーション省(SERI)が支援する4年間のプロジェクトである。
プロジェクトの一環として、言語モデルにおける社会的バイアスと、ヨーロッパ言語における単語の埋め込みを識別する新たなバイアス検出手法が開発され、特に言語学的および地理的特異性に注目している。
本技術報告ではBIAS Detection Frameworkのアーキテクチャとコンポーネントについて述べる。
この技術レポートに記載されたコードは利用可能であり、BIASプロジェクトの今後の成果とともに、継続的に更新および拡張される予定である。
異なる言語のためのデータセットの詳細は、科学会場での対応する論文に記載されている。
関連論文リスト
- Crafting Tomorrow's Headlines: Neural News Generation and Detection in English, Turkish, Hungarian, and Persian [9.267227655791443]
我々は、英語、トルコ語、ハンガリー語、ペルシア語という4つの言語でニューラルニュース検出のために設計されたベンチマークデータセットを紹介した。
このデータセットには、BloomZ、LLaMa-2、Mistral、Mixtral、GPT-4など、複数の多言語ジェネレータ(ゼロショットと微調整の両方)からの出力が含まれている。
本研究は,全言語を対象とした機械生成テキスト検出器の解釈性と頑健性を明らかにすることを目的とした検出結果を提案する。
論文 参考訳(メタデータ) (2024-08-20T10:45:36Z) - Recent Advancements and Challenges of Turkic Central Asian Language Processing [0.0]
本稿は、中央アジアの言語、すなわちカザフ語、ウズベク語、キルギス語、トルクメン語のNLP球体に焦点を当てる。
これは、言語言語の言語特性、既に開発された技術の現在のカバレッジとパフォーマンス、ラベル付きおよびラベルなしデータの各言語での可用性について、より広範に高レベルな概要を提供する。
論文 参考訳(メタデータ) (2024-07-06T08:58:26Z) - Contextual Label Projection for Cross-Lingual Structured Prediction [103.55999471155104]
CLaPはテキストを対象言語に翻訳し、翻訳されたテキストをコンテキストとしてラベルにコンテキスト変換を行う。
39言語間のゼロショット言語間転送において,CLaPと他のラベル投影手法のベンチマークを行った。
論文 参考訳(メタデータ) (2023-09-16T10:27:28Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Overcoming Language Disparity in Online Content Classification with
Multimodal Learning [22.73281502531998]
大規模言語モデルは、テキスト検出と分類タスクのための最先端のソリューションを開発するための標準となっている。
高度な計算技術と資源の開発は、英語に不相応に焦点が当てられている。
マルチモーダル機械学習を用いて画像に含まれる情報を統合するという約束を探求する。
論文 参考訳(メタデータ) (2022-05-19T17:56:02Z) - Prix-LM: Pretraining for Multilingual Knowledge Base Construction [59.02868906044296]
複数言語による知識構築と完成のための統合フレームワークである Prix-LM を提案する。
既存の多言語KBから抽出したモノリンガルトリプルとクロスリンガルリンクの2種類の知識を利用する。
複数の言語におけるリンク予測、言語間リンク、バイリンガル語彙誘導など、標準的なエンティティ関連タスクの実験は、その効果を実証している。
論文 参考訳(メタデータ) (2021-10-16T02:08:46Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - Natural Language Processing Chains Inside a Cross-lingual Event-Centric
Knowledge Pipeline for European Union Under-resourced Languages [0.0]
本稿では、欧州連合言語のための言語処理チェーンを含むプラットフォームを開発するための戦略について述べる。
これらのチェーンは、ヨーロッパや他の世界に影響を与える可能性のある主要なイベントに関する多言語メディア情報を処理することを目的とした、イベント中心の知識処理パイプラインの第1ステップの一部です。
論文 参考訳(メタデータ) (2020-10-23T14:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。