論文の概要: Code-Switched Language Identification is Harder Than You Think
- arxiv url: http://arxiv.org/abs/2402.01505v1
- Date: Fri, 2 Feb 2024 15:38:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 14:39:21.987001
- Title: Code-Switched Language Identification is Harder Than You Think
- Title(参考訳): コード変換言語識別は、想像以上に難しい
- Authors: Laurie Burchell, Alexandra Birch, Robert P. Thompson, Kenneth Heafield
- Abstract要約: コードスイッチングは、文字と音声の通信において一般的な現象である。
CSコーパスの構築の応用について検討する。
タスクをもっと多くの言語に拡張することで、タスクをより現実的にします。
文レベルのマルチラベルタグ付け問題としてタスクを再構築し、より難易度の高いものにする。
- 参考スコア(独自算出の注目度): 69.63439391717691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code switching (CS) is a very common phenomenon in written and spoken
communication but one that is handled poorly by many natural language
processing applications. Looking to the application of building CS corpora, we
explore CS language identification (LID) for corpus building. We make the task
more realistic by scaling it to more languages and considering models with
simpler architectures for faster inference. We also reformulate the task as a
sentence-level multi-label tagging problem to make it more tractable. Having
defined the task, we investigate three reasonable models for this task and
define metrics which better reflect desired performance. We present empirical
evidence that no current approach is adequate and finally provide
recommendations for future work in this area.
- Abstract(参考訳): コードスイッチング(cs)は、文字と音声のコミュニケーションにおいて非常に一般的な現象であるが、多くの自然言語処理アプリケーションでは扱いにくい。
CSコーパス構築の応用について,コーパス構築のためのCS言語識別(LID)について検討する。
より多くの言語に拡張し、よりシンプルなアーキテクチャでより高速な推論モデルを検討することで、タスクをより現実的にします。
また,タスクをより扱いやすくするために,文レベルのマルチラベルタグ問題としてタスクを再構成する。
タスクを定義して、このタスクに合理的な3つのモデルを調査し、望ましいパフォーマンスをよりよく反映するメトリクスを定義します。
我々は、現在のアプローチが適切でないという実証的な証拠を示し、最終的にこの分野における今後の作業について推奨する。
関連論文リスト
- Eliciting Better Multilingual Structured Reasoning from LLMs through Code [17.870002864331322]
我々は6言語にまたがる4つのタスクを網羅する,xSTREETと呼ばれる多言語構造推論と説明データセットを提案する。
xSTREETは、英語と非英語の推論タスクの基本的なLLMパフォーマンスのギャップを露呈する。
このギャップを緩和する2つの方法を提案する。
論文 参考訳(メタデータ) (2024-03-05T00:48:56Z) - Coupling Large Language Models with Logic Programming for Robust and
General Reasoning from Text [5.532477732693001]
大規模言語モデルは, 意味論的に非常に効果的な数ショットとして機能することを示す。
自然言語文を論理形式に変換し、応答集合プログラムの入力として機能する。
本手法は,bAbI, StepGame, CLUTRR, gSCAN など,いくつかのベンチマークにおいて最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-15T03:29:59Z) - Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning [0.7242530499990028]
コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。
我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
論文 参考訳(メタデータ) (2023-05-31T11:43:16Z) - Call Larisa Ivanovna: Code-Switching Fools Multilingual NLU Models [1.827510863075184]
NLU(Multilingual natural Language understanding)の新たなベンチマークには、意図とスロットを付加した複数の言語での単言語文が含まれる。
既存のベンチマークでは、文法構造が複雑であるため、収集やラベル付けが困難であるコードスイッチ付き発話が欠如している。
我々の研究は、可塑性で自然な発声音声を生成するための認識された手法を採用し、それらを用いて合成コード発声テストセットを作成する。
論文 参考訳(メタデータ) (2021-09-29T11:15:00Z) - Can Machines Read Coding Manuals Yet? -- A Benchmark for Building Better
Language Models for Code Understanding [3.98345038769576]
フォーラムの投稿で、質問に対する最良の回答を予測するなどのタスクに基づいて、コード理解を評価するためのベンチマークのセットを導出します。
我々は,これらのタスクにおける現状の言語モデルの性能を評価し,微調整による各タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2021-09-15T17:42:44Z) - Unifying Vision-and-Language Tasks via Text Generation [81.3910771082967]
一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。
我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。
我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-04T17:59:30Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - Language Models as Few-Shot Learner for Task-Oriented Dialogue Systems [74.8759568242933]
タスク指向対話システムは、自然言語理解(NLU)、対話状態追跡(DST)、対話ポリシー(DP)、自然言語生成(NLG)の4つの連結モジュールを使用する。
研究課題は、データ収集に関連する高コストから最小限のサンプルで各モジュールを学習することである。
我々は,NLU,DP,NLGタスクにおいて,言語モデルの素小ショット能力を評価する。
論文 参考訳(メタデータ) (2020-08-14T08:23:21Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z) - Style Variation as a Vantage Point for Code-Switching [54.34370423151014]
Code-Switching (CS) は、複数のバイリンガルコミュニティや多言語コミュニティでよく見られる現象である。
両言語間のスタイルのバリエーションとして,CSの新たな特徴点を提示する。
本稿では,第1段階がCSの競合負例を生成し,第2段階がより現実的なCS文を生成する2段階生成逆トレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-05-01T15:53:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。