論文の概要: The Shrinking Landscape of Linguistic Diversity in the Age of Large Language Models
- arxiv url: http://arxiv.org/abs/2502.11266v1
- Date: Sun, 16 Feb 2025 20:51:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:12:46.832516
- Title: The Shrinking Landscape of Linguistic Diversity in the Age of Large Language Models
- Title(参考訳): 大規模言語モデルの時代における言語多様性の縮小景観
- Authors: Zhivar Sourati, Farzan Karimi-Malekabadi, Meltem Ozcan, Colin McDaniel, Alireza Ziabari, Jackson Trager, Ala Tak, Meng Chen, Fred Morstatter, Morteza Dehghani,
- Abstract要約: 大規模言語モデル (LLMs) は, 言語多様性の顕著な低下と関係があることが示唆された。
テキストの中核的な内容は、LLMがテキストを洗練・書き直しする際に保持されるが、書体スタイルを均質化するだけでなく、特定の支配的特徴やバイアスを選択的に増幅し、他を抑圧する方法でスタイル的要素を変更することも示している。
- 参考スコア(独自算出の注目度): 7.811355338367627
- License:
- Abstract: Language is far more than a communication tool. A wealth of information - including but not limited to the identities, psychological states, and social contexts of its users - can be gleaned through linguistic markers, and such insights are routinely leveraged across diverse fields ranging from product development and marketing to healthcare. In four studies utilizing experimental and observational methods, we demonstrate that the widespread adoption of large language models (LLMs) as writing assistants is linked to notable declines in linguistic diversity and may interfere with the societal and psychological insights language provides. We show that while the core content of texts is retained when LLMs polish and rewrite texts, not only do they homogenize writing styles, but they also alter stylistic elements in a way that selectively amplifies certain dominant characteristics or biases while suppressing others - emphasizing conformity over individuality. By varying LLMs, prompts, classifiers, and contexts, we show that these trends are robust and consistent. Our findings highlight a wide array of risks associated with linguistic homogenization, including compromised diagnostic processes and personalization efforts, the exacerbation of existing divides and barriers to equity in settings like personnel selection where language plays a critical role in assessing candidates' qualifications, communication skills, and cultural fit, and the undermining of efforts for cultural preservation.
- Abstract(参考訳): 言語はコミュニケーションツール以上のものです。
ユーザのアイデンティティ、心理的状態、社会的状況などを含む豊富な情報は、言語マーカーを通じて把握され、製品開発やマーケティングから医療まで、さまざまな分野において定期的に活用される。
実験的, 観察的手法を用いた4つの研究において, 大規模言語モデル(LLM)の言語多様性の顕著な低下と, 社会的, 心理的洞察言語がもたらす影響が示唆された。
テキストの中核的な内容は、LLMがテキストを磨き書きするときに保持されるが、書体スタイルを均質化するだけでなく、特定の支配的特徴や偏見を選択的に増幅し、他者を抑圧するスタイル要素も変更し、個性よりも適合性を強調する。
LLM、プロンプト、分類器、コンテキストによって、これらの傾向は堅牢で一貫したものであることを示す。
本研究は, 言語均質化にともなうリスクの多様さを浮き彫りにし, 診断プロセスやパーソナライゼーション活動の妥協, 候補者の資格, コミュニケーションスキル, 文化的適合性を評価する上で, 言語が重要な役割を担う人事選択, 文化的保全努力の弱体化などについて考察した。
関連論文リスト
- Variationist: Exploring Multifaceted Variation and Bias in Written Language Data [3.666781404469562]
言語データの探索と理解は、人間の言語を扱うあらゆる分野において、基本的な段階である。
しかし現時点では、言語の変化とバイアスをシームレスに検査し視覚化する、統一的でカスタマイズ可能なツールが欠如している。
本稿では、このギャップを埋める高度にモジュラーで記述的でタスクに依存しないツールである「変分主義」を紹介する。
論文 参考訳(メタデータ) (2024-06-25T15:41:07Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Are Structural Concepts Universal in Transformer Language Models?
Towards Interpretable Cross-Lingual Generalization [27.368684663279463]
本稿では,言語間の概念対応を明確に整合させ,言語間の一般化を促進する可能性について検討する。
言語構文の側面をテストベッドとして,43言語を解析した結果,高い整合性を示した。
本稿では,メタラーニングに基づく概念空間の整合学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-19T14:50:51Z) - Towards Bridging the Digital Language Divide [4.234367850767171]
多言語言語処理システムは、しばしばハードワイヤで、通常不随意で、特定の言語に対して隠された表現的嗜好を示す。
偏りのある技術は、しばしば表現される言語の複雑さに不公平な研究・開発手法の結果であることを示す。
我々は,技術設計と方法論の両面から,言語バイアスを減らすことを目的とした新しいイニシアティブを提案する。
論文 参考訳(メタデータ) (2023-07-25T10:53:20Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Fairness in Language Models Beyond English: Gaps and Challenges [11.62418844341466]
本稿では,多言語・非英語の文脈における公平性について調査する。
これは、現在の研究の欠点と、英語向けに設計された手法が直面する困難を強調している。
論文 参考訳(メタデータ) (2023-02-24T11:25:50Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Identifying Distributional Perspective Differences from Colingual Groups [41.58939666949895]
特定の価値観や出来事に対する視点に関する異なるグループ間での相互理解の欠如は、インフォームドな決定や偏見のない意見につながる可能性がある。
本研究では,コリンガル群を研究対象とし,言語コーパスをプロキシとして用いて分布的視点を同定する。
本稿では,共通理解を学習するための新しい計算手法を提案し,その手法を英語,中国語,日本語の文化的認識モデルの構築によって評価する。
論文 参考訳(メタデータ) (2020-04-10T08:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。