論文の概要: A Topic-aware Comparable Corpus of Chinese Variations
- arxiv url: http://arxiv.org/abs/2411.10955v1
- Date: Sun, 17 Nov 2024 04:06:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:33:57.016021
- Title: A Topic-aware Comparable Corpus of Chinese Variations
- Title(参考訳): 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳
- Authors: Da-Chen Lian, Shu-Kai Hsieh,
- Abstract要約: Dcard for Taiwanese Mandarin と Sina Weibo for Mainland Chinese を使って、定期的に更新し、ソーシャルメディア上でのモダンな言語使用を反映した、同等のコーパスを作成します。
- 参考スコア(独自算出の注目度): 0.6906005491572401
- License:
- Abstract: This study aims to fill the gap by constructing a topic-aware comparable corpus of Mainland Chinese Mandarin and Taiwanese Mandarin from the social media in Mainland China and Taiwan, respectively. Using Dcard for Taiwanese Mandarin and Sina Weibo for Mainland Chinese, we create a comparable corpus that updates regularly and reflects modern language use on social media.
- Abstract(参考訳): 本研究は,中国本土と台湾のソーシャルメディアから,中国マンダリンと台湾マンダリンのトピック対応コーパスを構築することで,そのギャップを埋めることを目的とする。
Dcard for Taiwanese Mandarin と Sina Weibo for Mainland Chinese を使って、定期的に更新し、ソーシャルメディア上でのモダンな言語使用を反映した、同等のコーパスを作成します。
関連論文リスト
- When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - CORI: CJKV Benchmark with Romanization Integration -- A step towards Cross-lingual Transfer Beyond Textual Scripts [50.44270798959864]
一部の言語は、他の言語よりも接続性が良く、ターゲット言語は、密接に関連する言語からの転送の恩恵を受けることができる。
本研究では,言語間移動におけるソース言語の影響について検討し,対象言語と高い接触を持つソース言語を選択することの重要性を示す。
論文 参考訳(メタデータ) (2024-04-19T04:02:50Z) - Enhancing Taiwanese Hokkien Dual Translation by Exploring and Standardizing of Four Writing Systems [4.150560582918129]
台湾のホッキエン漢と伝統的なマンダリン中国語の正書法的類似性を活用するために,従来のマンダリン中国語に特化したLLaMA 2-7Bモデルを事前訓練した。
限定的な単言語コーパスの使用により,台湾語のHokkien能力がさらに向上することが判明した。
論文 参考訳(メタデータ) (2024-03-18T17:56:13Z) - Taiwan LLM: Bridging the Linguistic Divide with a Culturally Aligned
Language Model [31.68119156599923]
本稿では,台湾のLLM(Large Language Model)について紹介する。
我々は,伝統的な中国語の複雑さだけでなく,台湾の文化的文脈を具現化したモデルを開発した。
論文 参考訳(メタデータ) (2023-11-29T09:48:34Z) - Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - A New Dataset and Empirical Study for Sentence Simplification in Chinese [50.0624778757462]
本稿では,中国語で文の単純化を評価するための新しいデータセットであるCSSを紹介する。
我々は、人間のアノテーションから手作業による単純化を収集し、英語と中国語の文の簡易化の違いを示すデータ解析を行う。
最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。
論文 参考訳(メタデータ) (2023-06-07T06:47:34Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Cross-strait Variations on Two Near-synonymous Loanwords xie2shang1 and
tan2pan4: A Corpus-based Comparative Study [2.6194322370744305]
本研究は,中国語の2つの典型的な同義語であるxie2shang1とtan2pan4の交叉変化について検討する。
比較分析により、台湾とマンダリンの分布的、最終的な、文脈的類似点と相違点が見つかった。
論文 参考訳(メタデータ) (2022-10-09T04:10:58Z) - An Analysis of the Differences Among Regional Varieties of Chinese in
Malay Archipelago [5.030581940990434]
中国の特徴は、マレー諸島の国々にある中国の共同体で顕著である。
中国語は現地の言語や文化への調整の過程を経て、各国に中国語の変種が出現した。
論文 参考訳(メタデータ) (2022-09-10T07:29:25Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - A Corpus of Adpositional Supersenses for Mandarin Chinese [15.757892250956715]
マンダリン中国語ですべての表記が意味論的に注釈付けされたコーパスについて述べる。
提案手法は, 言語に依存しない意味的基準に従って, 超感覚の一般的な集合を定義する枠組みに適応する。
このスーパーセンスカテゴリーは、英語と構文的差異があるにもかかわらず、中国語の表記に適していることがわかった。
論文 参考訳(メタデータ) (2020-03-18T18:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。