論文の概要: Disentangling Codemixing in Chats: The NUS ABC Codemixed Corpus
- arxiv url: http://arxiv.org/abs/2506.00332v1
- Date: Sat, 31 May 2025 01:09:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.783808
- Title: Disentangling Codemixing in Chats: The NUS ABC Codemixed Corpus
- Title(参考訳): NUS ABC Codemixed Corpus(英語)
- Authors: Svetlana Churina, Akshat Gupta, Insyirah Mujtahid, Kokil Jaidka,
- Abstract要約: コードミキシングは、単一の言説の中で複数の言語からの言語要素をシームレスに統合する。
著者ラベル付きで、人間の会話や関係をモデル化するのに適した公開コーパスが不足している。
本研究では,厳格なプライバシと倫理基準を維持しつつ,文脈におけるコードミキシングを理解するためのラベル付き汎用コーパスについて紹介する。
- 参考スコア(独自算出の注目度): 11.518751071307745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-mixing involves the seamless integration of linguistic elements from multiple languages within a single discourse, reflecting natural multilingual communication patterns. Despite its prominence in informal interactions such as social media, chat messages and instant-messaging exchanges, there has been a lack of publicly available corpora that are author-labeled and suitable for modeling human conversations and relationships. This study introduces the first labeled and general-purpose corpus for understanding code-mixing in context while maintaining rigorous privacy and ethical standards. Our live project will continuously gather, verify, and integrate code-mixed messages into a structured dataset released in JSON format, accompanied by detailed metadata and linguistic statistics. To date, it includes over 355,641 messages spanning various code-mixing patterns, with a primary focus on English, Mandarin, and other languages. We expect the Codemix Corpus to serve as a foundational dataset for research in computational linguistics, sociolinguistics, and NLP applications.
- Abstract(参考訳): コードミキシングは、1つの言説の中で複数の言語からの言語要素をシームレスに統合することを含み、自然な多言語コミュニケーションパターンを反映している。
ソーシャルメディア、チャットメッセージ、インスタントメッセージ交換といった非公式なやりとりでは有名だが、著者ラベル付きで人間同士の会話や関係のモデル化に適したコーパスが公開されていない。
本研究では,厳格なプライバシと倫理基準を維持しつつ,文脈におけるコードミキシングを理解するためのラベル付き汎用コーパスについて紹介する。
当社のライブプロジェクトは、詳細なメタデータと言語統計を伴って、コードミックスされたメッセージをJSON形式でリリースした構造化データセットに継続的に収集、検証、統合します。
現在までに、様々なコードミキシングパターンにまたがる355,641以上のメッセージが含まれており、主に英語、マンダリン、その他の言語に焦点を当てている。
Codemix Corpusは、計算言語学、社会言語学、NLPアプリケーションの研究のための基礎的なデータセットとして機能することを期待している。
関連論文リスト
- RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval [0.0]
インドでは、ソーシャルメディアのユーザーはローマ文字を使ってコードミキシングされた会話をすることが多い。
本稿では,コードミキシングによる会話から関連情報を抽出することの課題に焦点をあてる。
我々は、コードミキシングされた会話から最も関連性の高い回答を自動的に識別するメカニズムを開発する。
論文 参考訳(メタデータ) (2024-11-07T14:41:01Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - GupShup: An Annotated Corpus for Abstractive Summarization of
Open-Domain Code-Switched Conversations [28.693328393260906]
ヒンズー語と英語の会話を要約し,最初の会話要約データセットを開発した。
GupShupはヒンディー語で6,831以上の会話と、ヒンディー語とヒンディー語で対応する人間の注釈付き要約を含んでいる。
我々は,最先端の抽象要約モデルを訓練し,自動計測と人間評価の両方を用いてその性能を報告する。
論文 参考訳(メタデータ) (2021-04-17T15:42:01Z) - IIT Gandhinagar at SemEval-2020 Task 9: Code-Mixed Sentiment
Classification Using Candidate Sentence Generation and Selection [1.2301855531996841]
コードミキシングは、非標準の書き込みスタイルのためにテキストの感情を分析することの難しさを増す。
本稿では,Bi-LSTMに基づくニューラル分類器上での文生成と選択に基づく提案手法を提案する。
提案手法は,Bi-LSTMに基づくニューラル分類器と比較して,システム性能の向上を示す。
論文 参考訳(メタデータ) (2020-06-25T14:59:47Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。