論文の概要: Multi-label Scandinavian Language Identification (SLIDE)
- arxiv url: http://arxiv.org/abs/2502.06692v1
- Date: Mon, 10 Feb 2025 17:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:18.370295
- Title: Multi-label Scandinavian Language Identification (SLIDE)
- Title(参考訳): マルチラベルスカンジナビア言語識別(SLIDE)
- Authors: Mariia Fedorova, Jonas Sebulon Frydenberg, Victoria Handford, Victoria Ovedie Chruickshank Langø, Solveig Helene Willoch, Marthe Løken Midtgaard, Yves Scherrer, Petter Mæhlum, David Samuel,
- Abstract要約: 我々は,デンマーク語,ノルウェー語,ノルウェー語,ニノルスク語,スウェーデン語の多ラベル文レベルスカンジナビア語識別(LID)に焦点を当てた。
我々は,スカンディナヴィア言語識別と評価,SLIDE,手作業による複数ラベル評価データセット,および速度精度のトレードオフが変化するLIDモデルの組について述べる。
- 参考スコア(独自算出の注目度): 5.708847945003293
- License:
- Abstract: Identifying closely related languages at sentence level is difficult, in particular because it is often impossible to assign a sentence to a single language. In this paper, we focus on multi-label sentence-level Scandinavian language identification (LID) for Danish, Norwegian Bokm\r{a}l, Norwegian Nynorsk, and Swedish. We present the Scandinavian Language Identification and Evaluation, SLIDE, a manually curated multi-label evaluation dataset and a suite of LID models with varying speed-accuracy tradeoffs. We demonstrate that the ability to identify multiple languages simultaneously is necessary for any accurate LID method, and present a novel approach to training such multi-label LID models.
- Abstract(参考訳): 特に1つの言語に文を割り当てることはしばしば不可能であるため、文レベルで密接に関連する言語を特定することは困難である。
本稿では,デンマーク語,ノルウェー語,ノルウェー語,ノルウェー語,スウェーデン語に対する多言語文レベルのスカンジナビア語識別(LID)に焦点を当てる。
我々は,スカンディナヴィア言語識別と評価,SLIDE,手作業による複数ラベル評価データセット,および速度精度のトレードオフが変化するLIDモデルの組について述べる。
複数の言語を同時に識別する能力は,任意の正確な LID 法において必要であることを示すとともに,そのような多ラベル LID モデルをトレーニングするための新しいアプローチを提案する。
関連論文リスト
- Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Robust Open-Set Spoken Language Identification and the CU MultiLang
Dataset [2.048226951354646]
オープンセット音声言語識別システムは、入力が元の言語を示さないことを検出できる。
我々は,MFCCとピッチ特徴を用いたオープンセット音声言語識別のための新しい手法を実装した。
我々は、訓練された言語で91.76%の精度を達成し、未知の言語に適応する能力を有する音声言語識別システムを提案する。
論文 参考訳(メタデータ) (2023-08-29T00:44:27Z) - Transfer-Free Data-Efficient Multilingual Slot Labeling [82.02076369811402]
スロットラベリングはタスク指向対話(ToD)システムの中核的なコンポーネントである。
固有データ不足の問題を緩和するために、多言語ToDに関する現在の研究は、十分な英語の注釈付きデータが常に利用可能であると仮定している。
標準的な多言語文エンコーダを効果的なスロットラベリングに変換する2段階のスロットラベリング手法(TWOSL)を提案する。
論文 参考訳(メタデータ) (2023-05-22T22:47:32Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - ScandEval: A Benchmark for Scandinavian Natural Language Processing [0.0]
本稿では,スカンジナビア語における4つのタスクに対して事前学習したモデルをベンチマークする,スカンジナビアのベンチマークプラットフォームであるScandEvalを紹介する。
言語的受容性と質問応答という2つのタスクで使用されるデータセットは新しいものだ。
我々は,Hugging Face Hubにアップロードされたモデルを,再現可能な結果でベンチマークすることができるPythonパッケージとコマンドラインインターフェースであるScandevalを開発し,リリースする。
論文 参考訳(メタデータ) (2023-04-03T11:51:46Z) - Language Variety Identification with True Labels [7.9815074811220175]
本稿では,言語多様性を識別する最初の人間アノテーション付き多言語データセットであるDSL True Labels (-TL)を提案する。
DSL-TLは、ポルトガル語で12,900件、ポルトガル語で12,900件、スペイン語でアルゼンチン語でスペイン語とカスティーリャ語でスペイン語、英語でアメリカ英語とイギリス英語に分けられている。
我々はこれらの言語品種を識別するために複数のモデルを訓練し、その結果を詳細に提示した。
論文 参考訳(メタデータ) (2023-03-02T18:51:58Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Call Larisa Ivanovna: Code-Switching Fools Multilingual NLU Models [1.827510863075184]
NLU(Multilingual natural Language understanding)の新たなベンチマークには、意図とスロットを付加した複数の言語での単言語文が含まれる。
既存のベンチマークでは、文法構造が複雑であるため、収集やラベル付けが困難であるコードスイッチ付き発話が欠如している。
我々の研究は、可塑性で自然な発声音声を生成するための認識された手法を採用し、それらを用いて合成コード発声テストセットを作成する。
論文 参考訳(メタデータ) (2021-09-29T11:15:00Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。