論文の概要: Borrowing or Codeswitching? Annotating for Finer-Grained Distinctions in
Language Mixing
- arxiv url: http://arxiv.org/abs/2206.04973v1
- Date: Fri, 10 Jun 2022 10:06:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 15:13:56.067235
- Title: Borrowing or Codeswitching? Annotating for Finer-Grained Distinctions in
Language Mixing
- Title(参考訳): ローリングかコードスイッチングか?
言語混合における有限粒度識別のアノテーション
- Authors: Elena Alvarez Mellado and Constantine Lignos
- Abstract要約: 我々は、スペイン語と英語のコード変更と借用のために注釈付けされたTwitterデータの新しいコーパスを提示する。
コーパスには、トークンレベルで注釈付けされた9,500のツイートがあり、コードスイッチ、借入、名前付きエンティティがある。
- 参考スコア(独自算出の注目度): 2.741266294612776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new corpus of Twitter data annotated for codeswitching and
borrowing between Spanish and English. The corpus contains 9,500 tweets
annotated at the token level with codeswitches, borrowings, and named entities.
This corpus differs from prior corpora of codeswitching in that we attempt to
clearly define and annotate the boundary between codeswitching and borrowing
and do not treat common "internet-speak" ('lol', etc.) as codeswitching when
used in an otherwise monolingual context. The result is a corpus that enables
the study and modeling of Spanish-English borrowing and codeswitching on
Twitter in one dataset. We present baseline scores for modeling the labels of
this corpus using Transformer-based language models. The annotation itself is
released with a CC BY 4.0 license, while the text it applies to is distributed
in compliance with the Twitter terms of service.
- Abstract(参考訳): スペイン語と英語のコード変更と借用のための注釈付きTwitterデータの新しいコーパスを提示する。
コーパスには、トークンレベルで注釈付けされた9,500のツイートがあり、コードスイッチ、借入、名前付きエンティティがある。
このコーパスは、コードスイッチングと借用の境界を明確に定義し注釈付けしようとする従来のコーパスと異なり、モノリンガルな文脈で使用する場合、一般的な"internet-speak"('lol'など)をコードスイッチングとして扱わない。
その結果は、スペイン語の借用とTwitterでのコードスイッチングの研究とモデリングを可能にするコーパスである。
本稿ではトランスフォーマーに基づく言語モデルを用いて,このコーパスのラベルをモデル化するためのベースラインスコアを提案する。
アノテーション自体はCC BY 4.0ライセンスでリリースされ、適用されるテキストはTwitterのサービス規約に従って配布されている。
関連論文リスト
- CoVoSwitch: Machine Translation of Synthetic Code-Switched Text Based on Intonation Units [0.0]
コードスイッチングデータをPSSTで検出したインネーションユニットに置き換えて合成する。
我々はM2M-100 418MとNLLB-200 600Mの2つの多言語翻訳モデルのコードスイッチング翻訳性能を評価する。
論文 参考訳(メタデータ) (2024-07-19T13:26:35Z) - Code-Mixed Probes Show How Pre-Trained Models Generalise On Code-Switched Text [1.9185059111021852]
事前学習された言語モデルが3次元のコードスイッチトテキストをどのように扱うかを検討する。
その結果,事前学習した言語モデルは,コードスイッチトテキストへの一般化に有効であることが判明した。
論文 参考訳(メタデータ) (2024-03-07T19:46:03Z) - The Effect of Alignment Objectives on Code-Switching Translation [0.0]
我々は、ある言語から別の言語への単言語文の翻訳が可能な単一の機械翻訳モデルを訓練する方法を提案している。
このモデルは、人間の意味でのバイリンガルモデルと見なすことができる。
論文 参考訳(メタデータ) (2023-09-10T14:46:31Z) - ADELT: Transpilation Between Deep Learning Frameworks [12.30248336523211]
Adversarial DEep Learning Transpiler (ADELT)は、ディープラーニングフレームワーク間のソースからソースへのトランスパイラのための新しいアプローチである。
コードスケルトントランスパイレーションでは、大きな言語モデル(LLM)で数発のプロンプトを使用するが、APIキーワードマッピングでは、コード固有のBERTからのコンテキスト埋め込みを使用する。
ADELTは、手作りのルールや並列データに頼ることなく、ラベルなしのWebcrawled Deep Learning Corpusでトレーニングされている。
論文 参考訳(メタデータ) (2023-03-07T01:57:10Z) - CodeBERTScore: Evaluating Code Generation with Pretrained Models of Code [75.08995072899594]
コード生成のための評価指標であるCodeBERTScoreを提案する。
CodeBERTScoreは生成されたコードの前に入力された自然言語をエンコードする。
CodeBERTScoreは、既存のすべての指標よりも、人間の嗜好と機能的正しさとの相関性が高いことがわかった。
論文 参考訳(メタデータ) (2023-02-10T22:12:05Z) - EntityCS: Improving Zero-Shot Cross-lingual Transfer with Entity-Centric
Code Switching [15.884119564193924]
Code-Switchingは単語やフレーズレベルで言語アライメントを提供する。
既存のアプローチでは、CSデータを生成するために単語アライメントを持つ辞書やパラレル文を使用する。
本稿では,構文を損なうことなく細粒度な言語間セマンティクスをキャプチャするEntityCSを提案する。
論文 参考訳(メタデータ) (2022-10-22T20:05:40Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文 参考訳(メタデータ) (2021-03-11T14:22:08Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - NLP-CIC at SemEval-2020 Task 9: Analysing sentiment in code-switching
language using a simple deep-learning classifier [63.137661897716555]
コードスイッチングは、2つ以上の言語が同じメッセージで使用される現象である。
標準的な畳み込みニューラルネットワークモデルを用いて、スペイン語と英語の混在するツイートの感情を予測する。
論文 参考訳(メタデータ) (2020-09-07T19:57:09Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。