論文の概要: Losing our Tail -- Again: On (Un)Natural Selection And Multilingual Large Language Models
- arxiv url: http://arxiv.org/abs/2507.03933v2
- Date: Wed, 09 Jul 2025 13:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 13:22:10.060572
- Title: Losing our Tail -- Again: On (Un)Natural Selection And Multilingual Large Language Models
- Title(参考訳): Losing our Tail -- Again: On (Un)Natural Selection and Multilingual Large Language Models
- Authors: Eva Vanmassenhove,
- Abstract要約: 言語分布の尾は消えつつあるし、それらとともに、彼らが持っている物語やアイデンティティも消えつつある、と私は主張する。
これは言語的平坦化に抵抗し、NLPを多言語的・言語的多様性と創造性を表現的に促進し、価値を与え、保護する分野として再想像することである。
- 参考スコア(独自算出の注目度): 0.8702432681310399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual Large Language Models (LLMs) considerably changed how technologies can influence language. While previous technologies could mediate or assist humans, there is now a tendency to offload the task of writing itself to these technologies, enabling them to change our linguistic ecosystem more directly. While they provide us quick access to information and impressively fluent output, beneath their apparent sophistication lies a subtle, more insidious threat: the gradual decline and loss of linguistic diversity. With this opinion piece, I explore how model collapse, with a particular focus on translation technology, can lead to the loss of linguistic forms, grammatical features, and cultural nuance. Model collapse refers to the eventual consequence of self-consuming training loops, where models reinforce their own biases and lose linguistic diversity. Drawing on recent work in Computer Vision, Natural Language Processing (NLP) and Machine Translation (MT), I argue that the tails of our linguistic distributions are vanishing, and with them, the narratives and identities they carry. This is a call to resist linguistic flattening and to reimagine NLP as a field that encourages, values and protects expressive multilingual lexical and linguistic diversity and creativity.
- Abstract(参考訳): 多言語大言語モデル(LLM)は、テクノロジーが言語に与える影響を大きく変えた。
従来の技術は人間を仲介したり支援したりできるが、今ではこれらの技術に自分自身を書き込むタスクをオフロードする傾向があり、それによって言語生態系をより直接的に変えることができる。
情報への迅速なアクセスと驚くほど流動的なアウトプットを提供する一方で、その明らかな高度化の下にある脅威は微妙で、より悲惨な脅威、すなわち言語多様性の段階的な減少と喪失である。
本稿では, 翻訳技術を中心に, モデル崩壊が言語形態の喪失, 文法的特徴, 文化的ニュアンスにどのように寄与するかを考察する。
モデル崩壊は、モデルが自身のバイアスを強化し、言語的な多様性を失う、自己消費トレーニングループの最終的な結果を指す。
コンピュータビジョン,自然言語処理 (NLP) および機械翻訳 (MT) における最近の研究に基づき,我々の言語分布の尾は消滅し,それらとともに,それらが持つ物語やアイデンティティも失われつつあると論じる。
これは言語的平坦化に抵抗し、NLPを多言語的・言語的多様性と創造性を表現的に促進し、価値を与え、保護する分野として再想像することである。
関連論文リスト
- Sparse Auto-Encoder Interprets Linguistic Features in Large Language Models [40.12943080113246]
スパースオートエンコーダ(SAE)を用いた系統的・包括的因果調査を提案する。
6次元から幅広い言語的特徴を抽出する。
本稿では,FRC(Feature Representation Confidence)とFIC(Feature Intervention Confidence)の2つの指標を紹介する。
論文 参考訳(メタデータ) (2025-02-27T18:16:47Z) - The Shrinking Landscape of Linguistic Diversity in the Age of Large Language Models [7.811355338367627]
大規模言語モデル (LLMs) は, 言語多様性の顕著な低下と関係があることが示唆された。
テキストの中核的な内容は、LLMがテキストを洗練・書き直しする際に保持されるが、書体スタイルを均質化するだけでなく、特定の支配的特徴やバイアスを選択的に増幅し、他を抑圧する方法でスタイル的要素を変更することも示している。
論文 参考訳(メタデータ) (2025-02-16T20:51:07Z) - Generative AI and Large Language Models in Language Preservation: Opportunities and Challenges [0.0]
Generative AI(GenAI)とLarge Language Models(LLM)は、コーパス生成、転写、翻訳、学習を自動化する新たなフロンティアをアンロックする。
本稿では、言語固有のニーズに対してGenAIアプリケーションを体系的に評価する新しい分析フレームワークを提案する。
コミュニティ主導の音声認識などの成功例を92%の精度で再現するTe Reo M=aori再活性化による有効性を示す。
我々の知見は、GenAIが言語保存に革命をもたらすことは確かだが、介入がコミュニティ中心のデータスチュワードシップ、継続的な評価、透明なリスク管理に厳格に固定されている場合に限られる。
論文 参考訳(メタデータ) (2025-01-20T14:03:40Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Multilingual Text Representation [3.4447129363520337]
現代のNLPのブレークスルーには、100以上の言語でタスクを実行できる大規模な多言語モデルが含まれている。
最先端の言語モデルは、単語の単純な1ホット表現から始まり、長い道のりを歩んだ。
我々は、言語民主化の潜在能力が、既知の限界を超えてどのように得られるかについて論じる。
論文 参考訳(メタデータ) (2023-09-02T14:21:22Z) - Diffusion Language Models Can Perform Many Tasks with Scaling and Instruction-Finetuning [52.22611035186903]
拡散言語モデルを拡張することで、強力な言語学習者が効果的に学習できることが示される。
大規模データから知識を最初に取得することで,大規模に有能な拡散言語モデルを構築する。
実験により、拡散言語モデルのスケーリングは、下流言語タスクにおけるパフォーマンスを一貫して改善することが示された。
論文 参考訳(メタデータ) (2023-08-23T16:01:12Z) - Towards Bridging the Digital Language Divide [4.234367850767171]
多言語言語処理システムは、しばしばハードワイヤで、通常不随意で、特定の言語に対して隠された表現的嗜好を示す。
偏りのある技術は、しばしば表現される言語の複雑さに不公平な研究・開発手法の結果であることを示す。
我々は,技術設計と方法論の両面から,言語バイアスを減らすことを目的とした新しいイニシアティブを提案する。
論文 参考訳(メタデータ) (2023-07-25T10:53:20Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。