論文の概要: Towards Bridging the Digital Language Divide
- arxiv url: http://arxiv.org/abs/2307.13405v1
- Date: Tue, 25 Jul 2023 10:53:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 17:23:35.976870
- Title: Towards Bridging the Digital Language Divide
- Title(参考訳): デジタル言語分割の橋渡しに向けて
- Authors: G\'abor Bella, Paula Helm, Gertraud Koch, Fausto Giunchiglia
- Abstract要約: 多言語言語処理システムは、しばしばハードワイヤで、通常不随意で、特定の言語に対して隠された表現的嗜好を示す。
偏りのある技術は、しばしば表現される言語の複雑さに不公平な研究・開発手法の結果であることを示す。
我々は,技術設計と方法論の両面から,言語バイアスを減らすことを目的とした新しいイニシアティブを提案する。
- 参考スコア(独自算出の注目度): 4.234367850767171
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: It is a well-known fact that current AI-based language technology -- language
models, machine translation systems, multilingual dictionaries and corpora --
focuses on the world's 2-3% most widely spoken languages. Recent research
efforts have attempted to expand the coverage of AI technology to
`under-resourced languages.' The goal of our paper is to bring attention to a
phenomenon that we call linguistic bias: multilingual language processing
systems often exhibit a hardwired, yet usually involuntary and hidden
representational preference towards certain languages. Linguistic bias is
manifested in uneven per-language performance even in the case of similar test
conditions. We show that biased technology is often the result of research and
development methodologies that do not do justice to the complexity of the
languages being represented, and that can even become ethically problematic as
they disregard valuable aspects of diversity as well as the needs of the
language communities themselves. As our attempt at building diversity-aware
language resources, we present a new initiative that aims at reducing
linguistic bias through both technological design and methodology, based on an
eye-level collaboration with local communities.
- Abstract(参考訳): 現在のAIベースの言語技術 - 言語モデル、機械翻訳システム、多言語辞書、コーパス - が、世界で最も広く話されている2~3%の言語に焦点を合わせていることはよく知られている事実である。
最近の研究は、AI技術の「アンダーリソース言語」への範囲を広げようと試みている。
「本稿の目的は、言語バイアスと呼ばれる現象に注意を向けることである。多言語言語処理システムは、しばしば、ある種の言語に対する不随意的かつ隠された表現的嗜好を示す。
言語バイアスは、同様のテスト条件であっても言語ごとの不均一なパフォーマンスを示す。
偏見のある技術は、しばしば、表現される言語の複雑さに対して公正に行動しない研究・開発手法の結果であり、多様性の貴重な側面や言語コミュニティ自体のニーズを無視しているため、倫理的に問題になる可能性があることを示す。
多様性を意識した言語資源の構築の試みとして,地域コミュニティとの目視レベルの協調に基づく技術設計と方法論の両面での言語バイアス低減を目的とした,新たなイニシアティブを提案する。
関連論文リスト
- Building A Unified AI-centric Language System: analysis, framework and future work [0.0]
本稿では,AI中心の統一言語システムの設計について考察する。
多様な自然言語入力を合理化されたAIフレンドリーな言語に翻訳するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T20:32:57Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Diversity and Language Technology: How Techno-Linguistic Bias Can Cause
Epistemic Injustice [4.234367850767171]
多くの試みが、特定の言語に対するハードワイヤの表現的嗜好に固執する欠陥のある解を生み出していることを示す。
論文で示すように、技術的言語バイアスは、支配的な権力の言語と文化の一部である概念を表現できるシステムをもたらす可能性がある。
この問題の根底には、多様性の単純化された理解を適用する技術開発コミュニティの体系的な傾向がある、と我々は主張する。
論文 参考訳(メタデータ) (2023-07-25T16:08:27Z) - On the cross-lingual transferability of multilingual prototypical models
across NLU tasks [2.44288434255221]
教師付きディープラーニングベースのアプローチはタスク指向のダイアログに適用され、限られたドメインや言語アプリケーションに有効であることが証明されている。
実際には、これらのアプローチはドメイン駆動設計とアンダーリソース言語の欠点に悩まされている。
本稿では,原型ニューラルネットワークと多言語トランスフォーマーモデルを用いた相乗的少数ショット学習の言語間変換可能性について検討する。
論文 参考訳(メタデータ) (2022-07-19T09:55:04Z) - Overcoming Language Disparity in Online Content Classification with
Multimodal Learning [22.73281502531998]
大規模言語モデルは、テキスト検出と分類タスクのための最先端のソリューションを開発するための標準となっている。
高度な計算技術と資源の開発は、英語に不相応に焦点が当てられている。
マルチモーダル機械学習を用いて画像に含まれる情報を統合するという約束を探求する。
論文 参考訳(メタデータ) (2022-05-19T17:56:02Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - The State and Fate of Linguistic Diversity and Inclusion in the NLP
World [12.936270946393483]
言語技術は、世界中の多言語主義と言語多様性の促進に寄与している。
世界中で7000を超える言語のごく少数のみが、急速に進化する言語技術やアプリケーションで表現されている。
論文 参考訳(メタデータ) (2020-04-20T07:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。