論文の概要: Is a Prestigious Job the same as a Prestigious Country? A Case Study on
Multilingual Sentence Embeddings and European Countries
- arxiv url: http://arxiv.org/abs/2305.14482v2
- Date: Wed, 25 Oct 2023 09:13:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 20:53:25.148476
- Title: Is a Prestigious Job the same as a Prestigious Country? A Case Study on
Multilingual Sentence Embeddings and European Countries
- Title(参考訳): 先見の職は先見の国と同じか?
多言語文埋め込みとヨーロッパ諸国の事例研究
- Authors: Jind\v{r}ich Libovick\'y
- Abstract要約: 我々は,多言語文表現がヨーロッパ諸国や職業をどのように捉えているかを研究する。
我々の分析によると、この埋没の最も顕著な特徴は、東欧と西欧の地政学的区別である。
例外は、職業的名声と起源の国との関係を示す小さな蒸留モデルである。
- 参考スコア(独自算出の注目度): 3.4265828682659705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how multilingual sentence representations capture European countries
and occupations and how this differs across European languages. We prompt the
models with templated sentences that we machine-translate into 12 European
languages and analyze the most prominent dimensions in the embeddings.Our
analysis reveals that the most prominent feature in the embedding is the
geopolitical distinction between Eastern and Western Europe and the country's
economic strength in terms of GDP. When prompted specifically for job prestige,
the embedding space clearly distinguishes high and low-prestige jobs. The
occupational dimension is uncorrelated with the most dominant country
dimensions in three out of four studied models. The exception is a small
distilled model that exhibits a connection between occupational prestige and
country of origin, which is a potential source of nationality-based
discrimination. Our findings are consistent across languages.
- Abstract(参考訳): 我々は、多言語文表現がヨーロッパ諸国や職業をいかに捉えているか、そしてそれがヨーロッパ諸言語でどのように異なるかを研究する。
分析の結果,東欧と西欧の地政学的特徴と,gdpの面での経済力の差が最も顕著であることが判明した。
職業名声に特化して指示された場合、埋め込みスペースは明らかに高い仕事と低い仕事とを区別する。
職業次元は、4つの研究モデルのうち3つにおいて、最も支配的な国次元とは無関係である。
この例外は、職業的名声と起源の国との関係を示す小さな蒸留モデルであり、国籍に基づく差別の潜在的な源泉である。
我々の発見は言語にまたがって一貫している。
関連論文リスト
- Current State-of-the-Art of Bias Detection and Mitigation in Machine Translation for African and European Languages: a Review [0.6906005491572401]
我々は、ヨーロッパとアフリカの言語に特に焦点をあてて、最先端の技術を分析します。
この分野での作業の大部分が少数の言語に集中していること、そして将来の研究が調査されていない言語もカバーする可能性があることを示します。
論文 参考訳(メタデータ) (2024-10-28T15:28:50Z) - Cross-Lingual and Cross-Cultural Variation in Image Descriptions [2.8664758928324883]
画像記述における言語間差異に関する大規模な実証的研究を行った。
私たちは、31の言語とさまざまな場所の画像を持つマルチモーダルデータセットを使用します。
我々の分析によると、地理的にあるいは遺伝的に近い言語のペアは、同じ実体に頻繁に言及する傾向がある。
論文 参考訳(メタデータ) (2024-09-25T05:57:09Z) - Fine-tuning multilingual language models in Twitter/X sentiment analysis: a study on Eastern-European V4 languages [0.0]
未表現言語におけるTwitter/Xデータに基づくABSAサブタスクに着目した。
我々はロシアとウクライナに対する感情の分類のためにいくつかのLSMを微調整した。
いくつかのモデルは、Twitterのマルチ言語タスクにおいて、他のモデルよりもはるかにきめ細やかに調整可能であることを示す興味深い現象をいくつか報告している。
論文 参考訳(メタデータ) (2024-08-04T14:35:30Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - How Different Is Stereotypical Bias Across Languages? [1.0467550794914122]
近年の研究では、事前学習した英語モデルのステレオタイプバイアスを評価する方法が実証されている。
我々は、英語のStereoSetデータセット(Nadeem et al., 2021)を半自動でドイツ語、フランス語、スペイン語、トルコ語に翻訳する。
分析から得られた主な特徴は、mGPT-2は言語間で驚くべき反ステレオタイプ行動を示し、英語(モノリンガル)モデルは最も強いバイアスを示し、データセットに反映されるステレオタイプはトルコのモデルにはほとんど存在しないということである。
論文 参考訳(メタデータ) (2023-07-14T13:17:11Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Harnessing Multilinguality in Unsupervised Machine Translation for Rare
Languages [48.28540903568198]
マルチリンガル性は低リソース環境において教師なしシステムの実現に不可欠であることを示す。
我々は,5つの低リソース言語(グジャラート語,カザフ語,ネパール語,シンハラ語,トルコ語)について,英語方向と英語方向の単一モデルを提案する。
我々は、これらの言語の現在最先端の教師なしベースラインを全て上回り、最大14.4BLEUのゲインを得る。
論文 参考訳(メタデータ) (2020-09-23T15:07:33Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - On the coexistence of competing languages [0.0]
我々は,共存がもたらされる可能性のある方法を明らかにすることに焦点を当て,言語競争の問題を再考する。
この出現は対称性の破れに関連しており、2つの特定のシナリオを探索している。
いずれも、パラダイム的状況の調査は、言語共存につながる条件を定量的に理解することにつながる。
論文 参考訳(メタデータ) (2020-03-10T14:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。