論文の概要: Challenges and Limitations with the Metrics Measuring the Complexity of
Code-Mixed Text
- arxiv url: http://arxiv.org/abs/2106.10123v1
- Date: Fri, 18 Jun 2021 13:26:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-21 20:11:00.414534
- Title: Challenges and Limitations with the Metrics Measuring the Complexity of
Code-Mixed Text
- Title(参考訳): コード混合テキストの複雑さを計測するメトリクスの課題と限界
- Authors: Vivek Srivastava, Mayank Singh
- Abstract要約: コードミキシング(Code-mixing)は、多言語話者の間で頻繁に行われるコミュニケーションスタイルであり、テキストや音声の同じ発話で2つの異なる言語からの単語とフレーズを混ぜる。
本稿では、様々な実験で広く使われている既存のデータセットの例とともに、コード混合メトリクスのいくつかの固有の制限を示す。
- 参考スコア(独自算出の注目度): 1.6675267471157407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-mixing is a frequent communication style among multilingual speakers
where they mix words and phrases from two different languages in the same
utterance of text or speech. Identifying and filtering code-mixed text is a
challenging task due to its co-existence with monolingual and noisy text. Over
the years, several code-mixing metrics have been extensively used to identify
and validate code-mixed text quality. This paper demonstrates several inherent
limitations of code-mixing metrics with examples from the already existing
datasets that are popularly used across various experiments.
- Abstract(参考訳): コード混合は多言語話者間の頻繁なコミュニケーションスタイルであり、テキストや音声と同じ発話で2つの異なる言語からの単語やフレーズを混合する。
モノリンガルテキストとノイズテキストが共存しているため、コードミックステキストの識別とフィルタリングは難しい作業である。
長年にわたり、コードミックスされたテキストの品質を識別し検証するために、いくつかのコードミックスメトリクスが広く使われてきた。
本稿では,様々な実験で広く使用されている既存のデータセットの例を用いて,コード混合メトリクスの固有の制限について述べる。
関連論文リスト
- RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval [0.0]
インドでは、ソーシャルメディアのユーザーはローマ文字を使ってコードミキシングされた会話をすることが多い。
本稿では,コードミキシングによる会話から関連情報を抽出することの課題に焦点をあてる。
我々は、コードミキシングされた会話から最も関連性の高い回答を自動的に識別するメカニズムを開発する。
論文 参考訳(メタデータ) (2024-11-07T14:41:01Z) - Language Agnostic Code Embeddings [61.84835551549612]
私たちは、さまざまなプログラミング言語にまたがるコード埋め込みの言語間機能に重点を置いています。
1つは特定の言語のニュアンスと構文に深く結びついており、もう1つは詳細を知らない。
我々は、この言語固有のコンポーネントを分離して排除すると、下流のコード検索タスクが大幅に改善されることを示した。
論文 参考訳(メタデータ) (2023-10-25T17:34:52Z) - MacLaSa: Multi-Aspect Controllable Text Generation via Efficient
Sampling from Compact Latent Space [110.85888003111653]
マルチアスペクト制御可能なテキスト生成は、複数の望ましい属性を同時に持つ流動文を生成することを目的としている。
マルチアスペクト制御のための新しいアプローチ、すなわちMacLaSaを導入し、複数の側面に対してコンパクトな潜在空間を推定する。
また,MacLaSaは,高い推論速度を維持しつつ,属性関連性やテキスト品質を高いベースラインで向上させることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:30:35Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - MUTANT: A Multi-sentential Code-mixed Hinglish Dataset [16.14337612590717]
本稿では,多言語記事から多文コード混合テキスト(MCT)を識別する新しいタスクを提案する。
ユースケースとして、多言語の記事を活用し、第一級の多文コード混合Hinglishデータセットを構築します。
MUTANTデータセットは67kの記事と85kのHinglish MCTからなる。
論文 参考訳(メタデータ) (2023-02-23T04:04:18Z) - PreCogIIITH at HinglishEval : Leveraging Code-Mixing Metrics & Language
Model Embeddings To Estimate Code-Mix Quality [18.806186479627335]
我々は、コードミックス品質のレーティングを予測し、合成生成したコードミックステキストの品質に影響を与えるモデルを構築しようとしている。
INLG2022と協調した共有タスクであるHinglishEvalへの投稿で、私たちは、コードミックス品質のレーティングを予測することによって、合成されたコードミックステキストの品質に影響を与えるモデルを構築しようとしています。
論文 参考訳(メタデータ) (2022-06-16T08:00:42Z) - MIPE: A Metric Independent Pipeline for Effective Code-Mixed NLG
Evaluation [1.2559148369195197]
コードミキシング(Code-mixing)は、2つ以上の言語からの単語とフレーズを1つの発話で混合する現象である。
様々な一般的なメトリクスは、コードミキシングされたNLGタスクではうまく機能しない。
評価指標と人的判断の相関性を大幅に改善する指標独立評価パイプラインMIPEを提案する。
論文 参考訳(メタデータ) (2021-07-24T05:24:26Z) - Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。
形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文 参考訳(メタデータ) (2021-03-30T18:02:58Z) - IIT Gandhinagar at SemEval-2020 Task 9: Code-Mixed Sentiment
Classification Using Candidate Sentence Generation and Selection [1.2301855531996841]
コードミキシングは、非標準の書き込みスタイルのためにテキストの感情を分析することの難しさを増す。
本稿では,Bi-LSTMに基づくニューラル分類器上での文生成と選択に基づく提案手法を提案する。
提案手法は,Bi-LSTMに基づくニューラル分類器と比較して,システム性能の向上を示す。
論文 参考訳(メタデータ) (2020-06-25T14:59:47Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。