論文の概要: An Analysis of the Differences Among Regional Varieties of Chinese in
Malay Archipelago
- arxiv url: http://arxiv.org/abs/2209.04611v1
- Date: Sat, 10 Sep 2022 07:29:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 12:56:32.722878
- Title: An Analysis of the Differences Among Regional Varieties of Chinese in
Malay Archipelago
- Title(参考訳): マレー列島における中国語の地域品種間差異の解析
- Authors: Nankai Lin, Sihui Fu, Hongyan Wu, Shengyi Jiang
- Abstract要約: 中国の特徴は、マレー諸島の国々にある中国の共同体で顕著である。
中国語は現地の言語や文化への調整の過程を経て、各国に中国語の変種が出現した。
- 参考スコア(独自算出の注目度): 5.030581940990434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese features prominently in the Chinese communities located in the
nations of Malay Archipelago. In these countries, Chinese has undergone the
process of adjustment to the local languages and cultures, which leads to the
occurrence of a Chinese variant in each country. In this paper, we conducted a
quantitative analysis on Chinese news texts collected from five Malay
Archipelago nations, namely Indonesia, Malaysia, Singapore, Philippines and
Brunei, trying to figure out their differences with the texts written in modern
standard Chinese from a lexical and syntactic perspective. The statistical
results show that the Chinese variants used in these five nations are quite
different, diverging from their modern Chinese mainland counterpart. Meanwhile,
we managed to extract and classify several featured Chinese words used in each
nation. All these discrepancies reflect how Chinese evolves overseas, and
demonstrate the profound impact rom local societies and cultures on the
development of Chinese.
- Abstract(参考訳): 中国はマレー諸島の国々にある中国の共同体で顕著である。
これらの国では、中国語は現地の言語や文化に適応する過程をとっており、各国で中国語の変種が発生することになる。
本稿では,マレー列島5カ国(インドネシア,マレーシア,シンガポール,フィリピン,ブルネイ)から収集された中国語ニューステキストの量的分析を行い,語彙的・統語論的観点から,現代中国語で書かれたテキストとの差異を明らかにする。
統計の結果、これらの5カ国で使用されている中国版は、現代の中国本土版とは大きく異なることが示されている。
一方,各国で用いられている特徴語を抽出し,分類した。
これらの不一致は、中国が海外でどのように発展していくのかを反映し、現地の社会や文化が中国の発展に深く影響していることを示している。
関連論文リスト
- A Topic-aware Comparable Corpus of Chinese Variations [0.6906005491572401]
Dcard for Taiwanese Mandarin と Sina Weibo for Mainland Chinese を使って、定期的に更新し、ソーシャルメディア上でのモダンな言語使用を反映した、同等のコーパスを作成します。
論文 参考訳(メタデータ) (2024-11-17T04:06:12Z) - When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - Evaluation of Google Translate for Mandarin Chinese translation using sentiment and semantic analysis [1.3999481573773074]
大規模言語モデル(LLM)を用いた機械翻訳は,世界規模で大きな影響を与えている。
中国語は、中国の政府やメディアによる通信に用いられる公用語である。
本研究では、感情分析と意味分析を用いて、人間の専門家によるGoogle翻訳の翻訳品質の自動評価を行う。
論文 参考訳(メタデータ) (2024-09-08T04:03:55Z) - How Chinese are Chinese Language Models? The Puzzling Lack of Language Policy in China's LLMs [2.9123921488295768]
18言語で中国語企業によって事前訓練された6つのオープンソース多言語LPMを評価した。
実験の結果,中国における多言語でのLLMのパフォーマンスは国際LLMと区別できないことがわかった。
われわれは、中国のLLM開発において、言語多様性のいずれに対しても、一貫した政策の兆候は見つからない。
論文 参考訳(メタデータ) (2024-07-12T19:21:40Z) - CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation [49.41531871253317]
我々は、新しい中国語ビジョン言語理解評価ベンチマークデータセットを提案する。
オブジェクトカテゴリとイメージの選択は、完全に中国のネイティブスピーカーによって駆動される。
中国文化関連VLデータセットの微調整により,VLMの中国文化理解が効果的に向上することが確認された。
論文 参考訳(メタデータ) (2024-07-01T08:35:37Z) - Historical patterns of rice farming explain modern-day language use in
China and Japan more than modernization and urbanization [13.57362490817339]
中国最大のソーシャルメディアプラットフォームであるWeiboの文化的な違いを研究するために、自然言語処理を使用して10億語を分析しました。
中国における文化的な差異(経済発展と都市と農村の差異)と、米と小麦の栽培の貧弱な遺産との2つの共通説明から予測した。
あらゆる語カテゴリーにおいて、米は経済発展と都市化の2倍のばらつきを説明した。
米田地帯では、厳密な社会的結びつき、全体主義的思考、慎重で予防的指向を反映した言葉が多かった。
論文 参考訳(メタデータ) (2023-08-29T14:47:08Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - Analyzing Gender Representation in Multilingual Models [59.21915055702203]
実践的なケーススタディとして,ジェンダーの区別の表現に焦点をあてる。
ジェンダーの概念が、異なる言語で共有された部分空間にエンコードされる範囲について検討する。
論文 参考訳(メタデータ) (2022-04-20T00:13:01Z) - The 'Letter' Distribution in the Chinese Language [24.507787098011907]
研究により、いくつかのアルファベットの文字言語における文字は、統計的使用頻度の分布が著しく類似していることが判明した。
この研究は、人間の言語の一貫性の新たな証拠を提供する。
論文 参考訳(メタデータ) (2020-05-26T05:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。