論文の概要: Is a Prestigious Job the same as a Prestigious Country? A Case Study on
Multilingual Sentence Embeddings and European Countries
- arxiv url: http://arxiv.org/abs/2305.14482v1
- Date: Tue, 23 May 2023 19:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 23:58:04.994760
- Title: Is a Prestigious Job the same as a Prestigious Country? A Case Study on
Multilingual Sentence Embeddings and European Countries
- Title(参考訳): 先見の職は先見の国と同じか?
多言語文埋め込みとヨーロッパ諸国の事例研究
- Authors: Jind\v{r}ich Libovick\'y
- Abstract要約: 我々は、多言語文表現がヨーロッパ諸国をどのように捉えているか、そしてそれがヨーロッパ諸言語でどのように異なるかを研究する。
埋め込みにおける最も顕著な国の特徴は、GDPDの経済的な強さである。
1つのモデル: 蒸留された普遍文は、職業的名声と起源の国との結びつきを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how multilingual sentence representations capture European countries
and how this differs across European languages. We prompt the models with
templated sentences that we machine-translate into 12 European languages and
analyze the most prominent dimensions in the embeddings. Our analysis reveals
that the most prominent country feature in the embedding is its economic
strength in terms of GPD. When prompted specifically for job prestige, the
embedding space clearly distinguishes high and low-prestige jobs. The
occupational dimension is uncorrelated with the most dominant country
dimensions for three out of four studied models. One model: Distilled
Multilingual Universal Sentence Encoder, however, exhibited a connection
between occupational prestige and country of origin, which is a potential
source of nationality-based discrimination. Our findings are consistent across
languages and, to some extent, with the exception mentioned above, across
studied representation models.
- Abstract(参考訳): 我々は、多言語文表現がヨーロッパ諸国をどのように捉えているか、そしてそれがヨーロッパ諸言語でどのように異なるかを研究する。
12のヨーロッパの言語に機械翻訳したテンプレート文でモデルを推奨し、埋め込みの最も顕著な次元を分析します。
分析の結果,組込みにおける最も顕著な国の特徴は,gpdの経済力であることが明らかとなった。
職業名声に特化して指示された場合、埋め込みスペースは明らかに高い仕事と低い仕事とを区別する。
職業次元は、4つの研究モデルのうち3つにおいて最も支配的な国次元とは無関係である。
しかし、蒸留された多言語共通文エンコーダは、国籍に基づく差別の潜在的な源泉である職業的名声と起源の国との関係を示した。
我々の発見は言語間およびある程度は、上記の例外を除いて、研究された表現モデル間で一致している。
関連論文リスト
- Current State-of-the-Art of Bias Detection and Mitigation in Machine Translation for African and European Languages: a Review [0.6906005491572401]
我々は、ヨーロッパとアフリカの言語に特に焦点をあてて、最先端の技術を分析します。
この分野での作業の大部分が少数の言語に集中していること、そして将来の研究が調査されていない言語もカバーする可能性があることを示します。
論文 参考訳(メタデータ) (2024-10-28T15:28:50Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Cross-Lingual and Cross-Cultural Variation in Image Descriptions [2.8664758928324883]
画像記述における言語間差異に関する大規模な実証的研究を行った。
私たちは、31の言語とさまざまな場所の画像を持つマルチモーダルデータセットを使用します。
我々の分析によると、地理的にあるいは遺伝的に近い言語のペアは、同じ実体に頻繁に言及する傾向がある。
論文 参考訳(メタデータ) (2024-09-25T05:57:09Z) - Fine-tuning multilingual language models in Twitter/X sentiment analysis: a study on Eastern-European V4 languages [0.0]
未表現言語におけるTwitter/Xデータに基づくABSAサブタスクに着目した。
我々はロシアとウクライナに対する感情の分類のためにいくつかのLSMを微調整した。
いくつかのモデルは、Twitterのマルチ言語タスクにおいて、他のモデルよりもはるかにきめ細やかに調整可能であることを示す興味深い現象をいくつか報告している。
論文 参考訳(メタデータ) (2024-08-04T14:35:30Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - How Different Is Stereotypical Bias Across Languages? [1.0467550794914122]
近年の研究では、事前学習した英語モデルのステレオタイプバイアスを評価する方法が実証されている。
我々は、英語のStereoSetデータセット(Nadeem et al., 2021)を半自動でドイツ語、フランス語、スペイン語、トルコ語に翻訳する。
分析から得られた主な特徴は、mGPT-2は言語間で驚くべき反ステレオタイプ行動を示し、英語(モノリンガル)モデルは最も強いバイアスを示し、データセットに反映されるステレオタイプはトルコのモデルにはほとんど存在しないということである。
論文 参考訳(メタデータ) (2023-07-14T13:17:11Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - On the coexistence of competing languages [0.0]
我々は,共存がもたらされる可能性のある方法を明らかにすることに焦点を当て,言語競争の問題を再考する。
この出現は対称性の破れに関連しており、2つの特定のシナリオを探索している。
いずれも、パラダイム的状況の調査は、言語共存につながる条件を定量的に理解することにつながる。
論文 参考訳(メタデータ) (2020-03-10T14:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。