論文の概要: A reproduction of Apple's bi-directional LSTM models for language
identification in short strings
- arxiv url: http://arxiv.org/abs/2102.06282v1
- Date: Thu, 11 Feb 2021 21:46:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 13:23:44.342495
- Title: A reproduction of Apple's bi-directional LSTM models for language
identification in short strings
- Title(参考訳): 短い文字列における言語識別のためのAppleの双方向LSTMモデルの再現
- Authors: Mads Toftrup, S{\o}ren Asger S{\o}rensen, Manuel R. Ciosici, Ira
Assent
- Abstract要約: Appleが簡単にスケッチした言語識別アーキテクチャを,ブログ記事で再現した。
その言語識別ミスは、関連する言語間の混乱によるものです。
- 参考スコア(独自算出の注目度): 8.430502131775722
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Language Identification is the task of identifying a document's language. For
applications like automatic spell checker selection, language identification
must use very short strings such as text message fragments. In this work, we
reproduce a language identification architecture that Apple briefly sketched in
a blog post. We confirm the bi-LSTM model's performance and find that it
outperforms current open-source language identifiers. We further find that its
language identification mistakes are due to confusion between related
languages.
- Abstract(参考訳): 言語識別は、文書の言語を特定するタスクである。
自動スペルチェッカー選択のようなアプリケーションでは、言語識別はテキストメッセージフラグメントのような非常に短い文字列を使用する必要がある。
本稿では、Appleが簡単にスケッチした言語識別アーキテクチャをブログ記事で再現する。
バイLSTMモデルの性能を確認し,現在のオープンソース言語識別子よりも優れていることを確認した。
さらに、その言語識別ミスは、関連する言語間の混乱によるものです。
関連論文リスト
- Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Rapid Language Adaptation for Multilingual E2E Speech Recognition Using Encoder Prompting [45.161909551392085]
自己条件CTCフレームワーク内にエンコーダプロンプト技術を導入し、ゼロショット方式でCTCモデルの言語固有の適応を可能にする。
提案手法は,低リソース言語では平均28%,低リソース言語では41%の誤差を著しく低減することを示した。
論文 参考訳(メタデータ) (2024-06-18T13:38:58Z) - FastSpell: the LangId Magic Spell [0.35525000234198584]
本稿では,fastTextとHunspellを組み合わせた言語識別子であるFastSpellを紹介する。
我々は、FastSpellが、類似言語の識別を改善するだけでなく、他のツールによって無視される新しい言語を特定するためにも有用であることを示す。
論文 参考訳(メタデータ) (2024-04-12T09:21:29Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - Robust Open-Set Spoken Language Identification and the CU MultiLang
Dataset [2.048226951354646]
オープンセット音声言語識別システムは、入力が元の言語を示さないことを検出できる。
我々は,MFCCとピッチ特徴を用いたオープンセット音声言語識別のための新しい手法を実装した。
我々は、訓練された言語で91.76%の精度を達成し、未知の言語に適応する能力を有する音声言語識別システムを提案する。
論文 参考訳(メタデータ) (2023-08-29T00:44:27Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - Detect Language of Transliterated Texts [0.0]
他の言語から英語へのインフォーマルな翻訳は、ソーシャルメディアのスレッド、インスタントメッセージング、ディスカッションフォーラムで一般的である。
特徴抽出のための言語識別システム(LID)を提案する。
単語を音節にトークン化し,Long Short-Term Memory (LSTM) ネットワークアーキテクチャを用いて,文字の翻訳言語を検出する。
論文 参考訳(メタデータ) (2020-04-26T10:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。