論文の概要: A Survey of Code-switching: Linguistic and Social Perspectives for
Language Technologies
- arxiv url: http://arxiv.org/abs/2301.01967v1
- Date: Thu, 5 Jan 2023 09:08:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 13:50:07.818456
- Title: A Survey of Code-switching: Linguistic and Social Perspectives for
Language Technologies
- Title(参考訳): コードスイッチングに関する調査:言語技術の言語学的・社会的展望
- Authors: A.Seza Do\u{g}ru\"oz, Sunayana Sitaram, Barbara E. Bullock, Almeida
Jacqueline Toribio
- Abstract要約: 我々は,言語工学における重要な課題を反映して,言語学の文献を網羅するコードスイッチング(C-S)について調査する。
言語学的観点から、ヨーロッパやインドの文脈からの文献に焦点を当てたC-Sの構造的・機能的パターンの概要を述べる。
言語技術の観点から、適切なトレーニングデータがないため、大規模言語モデルが多様なC-S型を表現できないかについて議論する。
- 参考スコア(独自算出の注目度): 8.202739294785086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The analysis of data in which multiple languages are represented has gained
popularity among computational linguists in recent years. So far, much of this
research focuses mainly on the improvement of computational methods and largely
ignores linguistic and social aspects of C-S discussed across a wide range of
languages within the long-established literature in linguistics. To fill this
gap, we offer a survey of code-switching (C-S) covering the literature in
linguistics with a reflection on the key issues in language technologies. From
the linguistic perspective, we provide an overview of structural and functional
patterns of C-S focusing on the literature from European and Indian contexts as
highly multilingual areas. From the language technologies perspective, we
discuss how massive language models fail to represent diverse C-S types due to
lack of appropriate training data, lack of robust evaluation benchmarks for C-S
(across multilingual situations and types of C-S) and lack of end-to-end
systems that cover sociolinguistic aspects of C-S as well. Our survey will be a
step towards an outcome of mutual benefit for computational scientists and
linguists with a shared interest in multilingualism and C-S.
- Abstract(参考訳): 複数の言語が表現されるデータの分析は近年、計算言語学者の間で人気が高まっている。
これまでの研究の多くは計算手法の改善に重点を置いており、言語学における長年の文献の中で議論されてきたC-Sの言語的・社会的側面を無視している。
このギャップを埋めるため,我々は言語工学の文献をカバーするコードスイッチング(c-s)に関する調査を行い,言語技術における重要な課題を考察する。
言語学的観点からは、ヨーロッパやインドの文脈を高度に多言語地域とするc-sの構造的・機能的パターンの概観を示す。
言語技術の観点からは、適切な訓練データがないこと、C-Sの頑健な評価ベンチマークがないこと、C-Sの社会言語学的側面をカバーするエンドツーエンドシステムがないことなどから、大規模言語モデルがどのように多様なC-S型を表現できないかについて議論する。
我々の調査は、多言語主義とC-Sに共通の関心を持つ計算科学者と言語学者の相互利益の成果への一歩となる。
関連論文リスト
- Can Code-Switched Texts Activate a Knowledge Switch in LLMs? A Case Study on English-Korean Code-Switching [14.841981996951395]
コードスイッチング(英語版) (CS) は微妙な文化的・言語的なニュアンスを伝えることができ、それ以外は翻訳で失われることがある。
近年の多言語大言語モデル(LLM)は,CSの理解など,様々な面で優れた多言語能力を示す。
論文 参考訳(メタデータ) (2024-10-24T05:14:03Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Grammatical Error Correction for Code-Switched Sentences by Learners of English [5.653145656597412]
CSWテキスト上で文法誤り訂正システムの利用を初めて検討する。
我々は、既存のGECコーパス内で異なるテキストのスパンを翻訳することで、合成されたCSW GECデータセットを生成する。
次に,CSW比,スイッチポイント係数,言語制約に基づいて,これらのスパンを選択する方法について検討する。
我々の最良のモデルは、モノリンガルデータセット上でのモデルの性能に影響を与えることなく、3つのCSWテストセットの平均1.57ドルF_0.5$を達成する。
論文 参考訳(メタデータ) (2024-04-18T20:05:30Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Towards Bridging the Digital Language Divide [4.234367850767171]
多言語言語処理システムは、しばしばハードワイヤで、通常不随意で、特定の言語に対して隠された表現的嗜好を示す。
偏りのある技術は、しばしば表現される言語の複雑さに不公平な研究・開発手法の結果であることを示す。
我々は,技術設計と方法論の両面から,言語バイアスを減らすことを目的とした新しいイニシアティブを提案する。
論文 参考訳(メタデータ) (2023-07-25T10:53:20Z) - Overcoming Language Disparity in Online Content Classification with
Multimodal Learning [22.73281502531998]
大規模言語モデルは、テキスト検出と分類タスクのための最先端のソリューションを開発するための標準となっている。
高度な計算技術と資源の開発は、英語に不相応に焦点が当てられている。
マルチモーダル機械学習を用いて画像に含まれる情報を統合するという約束を探求する。
論文 参考訳(メタデータ) (2022-05-19T17:56:02Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Style Variation as a Vantage Point for Code-Switching [54.34370423151014]
Code-Switching (CS) は、複数のバイリンガルコミュニティや多言語コミュニティでよく見られる現象である。
両言語間のスタイルのバリエーションとして,CSの新たな特徴点を提示する。
本稿では,第1段階がCSの競合負例を生成し,第2段階がより現実的なCS文を生成する2段階生成逆トレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-05-01T15:53:16Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。