論文の概要: A Topic-aware Comparable Corpus of Chinese Variations
- arxiv url: http://arxiv.org/abs/2411.10955v1
- Date: Sun, 17 Nov 2024 04:06:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:33:57.016021
- Title: A Topic-aware Comparable Corpus of Chinese Variations
- Title(参考訳): 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳
- Authors: Da-Chen Lian, Shu-Kai Hsieh,
- Abstract要約: Dcard for Taiwanese Mandarin と Sina Weibo for Mainland Chinese を使って、定期的に更新し、ソーシャルメディア上でのモダンな言語使用を反映した、同等のコーパスを作成します。
- 参考スコア(独自算出の注目度): 0.6906005491572401
- License:
- Abstract: This study aims to fill the gap by constructing a topic-aware comparable corpus of Mainland Chinese Mandarin and Taiwanese Mandarin from the social media in Mainland China and Taiwan, respectively. Using Dcard for Taiwanese Mandarin and Sina Weibo for Mainland Chinese, we create a comparable corpus that updates regularly and reflects modern language use on social media.
- Abstract(参考訳): 本研究は,中国本土と台湾のソーシャルメディアから,中国マンダリンと台湾マンダリンのトピック対応コーパスを構築することで,そのギャップを埋めることを目的とする。
Dcard for Taiwanese Mandarin と Sina Weibo for Mainland Chinese を使って、定期的に更新し、ソーシャルメディア上でのモダンな言語使用を反映した、同等のコーパスを作成します。
関連論文リスト
- Using Contextually Aligned Online Reviews to Measure LLMs' Performance Disparities Across Language Varieties [22.274503709032317]
本稿では,言語品種間でのベンチマークモデル性能に対する,新規で費用対効果の高いアプローチを提案する。
Booking.comのような国際的なオンラインレビュープラットフォームは効果的なデータソースとして機能する。
論文 参考訳(メタデータ) (2025-02-10T21:49:35Z) - Building a Taiwanese Mandarin Spoken Language Model: A First Attempt [44.54200115439157]
本報告は,マルチターン会話におけるリアルタイム音声対話を実現するために,台湾語マンダリンのための大規模音声言語モデル(MLL)を構築することを目的とする。
エンドツーエンドモデルにはデコーダのみのトランスフォーマーアーキテクチャが組み込まれており,会話の流路を保ちながらシームレスな対話を実現することを目的としている。
論文 参考訳(メタデータ) (2024-11-11T16:37:40Z) - When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - Taiwan LLM: Bridging the Linguistic Divide with a Culturally Aligned
Language Model [31.68119156599923]
本稿では,台湾のLLM(Large Language Model)について紹介する。
我々は,伝統的な中国語の複雑さだけでなく,台湾の文化的文脈を具現化したモデルを開発した。
論文 参考訳(メタデータ) (2023-11-29T09:48:34Z) - Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - A New Dataset and Empirical Study for Sentence Simplification in Chinese [50.0624778757462]
本稿では,中国語で文の単純化を評価するための新しいデータセットであるCSSを紹介する。
我々は、人間のアノテーションから手作業による単純化を収集し、英語と中国語の文の簡易化の違いを示すデータ解析を行う。
最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。
論文 参考訳(メタデータ) (2023-06-07T06:47:34Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Cross-strait Variations on Two Near-synonymous Loanwords xie2shang1 and
tan2pan4: A Corpus-based Comparative Study [2.6194322370744305]
本研究は,中国語の2つの典型的な同義語であるxie2shang1とtan2pan4の交叉変化について検討する。
比較分析により、台湾とマンダリンの分布的、最終的な、文脈的類似点と相違点が見つかった。
論文 参考訳(メタデータ) (2022-10-09T04:10:58Z) - An Analysis of the Differences Among Regional Varieties of Chinese in
Malay Archipelago [5.030581940990434]
中国の特徴は、マレー諸島の国々にある中国の共同体で顕著である。
中国語は現地の言語や文化への調整の過程を経て、各国に中国語の変種が出現した。
論文 参考訳(メタデータ) (2022-09-10T07:29:25Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - A Corpus of Adpositional Supersenses for Mandarin Chinese [15.757892250956715]
マンダリン中国語ですべての表記が意味論的に注釈付けされたコーパスについて述べる。
提案手法は, 言語に依存しない意味的基準に従って, 超感覚の一般的な集合を定義する枠組みに適応する。
このスーパーセンスカテゴリーは、英語と構文的差異があるにもかかわらず、中国語の表記に適していることがわかった。
論文 参考訳(メタデータ) (2020-03-18T18:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。