論文の概要: Language Detection for Transliterated Content
- arxiv url: http://arxiv.org/abs/2401.04619v1
- Date: Tue, 9 Jan 2024 15:40:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 15:23:19.304907
- Title: Language Detection for Transliterated Content
- Title(参考訳): 翻訳コンテンツの言語検出
- Authors: Selva Kumar S, Afifah Khan Mohammed Ajmal Khan, Chirag Manjeshwar,
Imadh Ajaz Banday
- Abstract要約: 我々は、英語のアルファベットを母国語でメッセージを伝えるために使用する翻訳の広汎な利用について研究する。
本稿では,ヒンディー語とロシア語を英語に翻訳した音声テキストのデータセットを用いて,この問題に対処する。
この研究は、翻訳されたテキストを識別し、変換するための革新的なアプローチの先駆者である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the contemporary digital era, the Internet functions as an unparalleled
catalyst, dismantling geographical and linguistic barriers particularly evident
in texting. This evolution facilitates global communication, transcending
physical distances and fostering dynamic cultural exchange. A notable trend is
the widespread use of transliteration, where the English alphabet is employed
to convey messages in native languages, posing a unique challenge for language
technology in accurately detecting the source language. This paper addresses
this challenge through a dataset of phone text messages in Hindi and Russian
transliterated into English utilizing BERT for language classification and
Google Translate API for transliteration conversion. The research pioneers
innovative approaches to identify and convert transliterated text, navigating
challenges in the diverse linguistic landscape of digital communication.
Emphasizing the pivotal role of comprehensive datasets for training Large
Language Models LLMs like BERT, our model showcases exceptional proficiency in
accurately identifying and classifying languages from transliterated text. With
a validation accuracy of 99% our models robust performance underscores its
reliability. The comprehensive exploration of transliteration dynamics
supported by innovative approaches and cutting edge technologies like BERT,
positions our research at the forefront of addressing unique challenges in the
linguistic landscape of digital communication. Beyond contributing to language
identification and transliteration capabilities this work holds promise for
applications in content moderation, analytics and fostering a globally
connected community engaged in meaningful dialogue.
- Abstract(参考訳): 現代のデジタル時代には、インターネットは例外なく触媒として機能し、特にテキストメッセージで明らかな地理的および言語的障壁を分解する。
この進化は、グローバルなコミュニケーションを促進し、物理的距離を超越し、動的な文化交流を育む。
顕著な傾向は、英語のアルファベットが母国語でメッセージを伝えるのに使われており、ソース言語を正確に検出する上で、言語技術にとってユニークな課題である。
本稿では,言語分類にBERT,翻訳変換にGoogle Translate APIを用い,ヒンディー語とロシア語を英語に翻訳した音声テキストのデータセットを用いてこの問題に対処する。
この研究は、デジタルコミュニケーションの多様な言語的展望における課題をナビゲートし、翻訳されたテキストを識別し変換するための革新的なアプローチの先駆者である。
BERT のような大規模言語モデル LLM の学習における包括的データセットの役割を強調し,翻訳されたテキストから言語を正確に識別し分類する能力を示す。
99%の検証精度で、ロバストなパフォーマンスは信頼性を低下させます。
革新的なアプローチやbertのような最先端技術によって支持される翻訳ダイナミクスの包括的探究は、デジタルコミュニケーションの言語的展望におけるユニークな課題に取り組むための最前線に私たちの研究を置きます。
言語識別と翻訳機能への貢献以外にも、この研究はコンテンツモデレーション、分析、そして意味のある対話に携わるグローバルなコミュニティの育成におけるアプリケーションの可能性を秘めている。
関連論文リスト
- Improving Multilingual Neural Machine Translation by Utilizing Semantic and Linguistic Features [18.76505158652759]
複数の言語間の意味的特徴と言語的特徴を利用して多言語翻訳を強化することを提案する。
エンコーダ側では,意味的特徴と言語的特徴を両立させることにより,エンコーダ表現を整合させる非係合学習タスクを導入する。
デコーダ側では、言語エンコーダを利用して低レベル言語機能を統合し、ターゲット言語生成を支援する。
論文 参考訳(メタデータ) (2024-08-02T17:10:12Z) - Tamil Language Computing: the Present and the Future [0.0]
言語コンピューティングは言語学、コンピュータ科学、認知心理学を統合し、有意義な人間とコンピュータの相互作用を作り出す。
近年のディープラーニングの進歩により、コンピュータはよりアクセスしやすくなり、独立した学習と適応が可能になった。
この論文は、日常的なコミュニケーションニーズに対応するために、Tamilのような言語のための実用的なアプリケーションを構築することの重要性を強調している。
論文 参考訳(メタデータ) (2024-07-11T15:56:02Z) - A Roadmap for Multilingual, Multimodal Domain Independent Deception Detection [2.1506382989223782]
人間のコミュニケーションの一般的な側面である騙しは、デジタル時代において大きな変化を遂げた。
近年の研究では、英語の領域にまたがる騙しに普遍的な言語的手がかりが存在する可能性が示されている。
低リソース言語における誤検出の実践的課題は、ラベル付きデータがないため、よく研究されている問題ではない。
論文 参考訳(メタデータ) (2024-05-07T00:38:34Z) - We're Calling an Intervention: Exploring the Fundamental Hurdles in Adapting Language Models to Nonstandard Text [8.956635443376527]
非標準テキストへの言語モデル適応の根底にある課題を理解するための一連の実験を提示する。
我々は、言語モデルの既存バイアスとの相互作用と、いくつかの種類の言語的変動を近似する介入を設計する。
学習データのサイズや性質の異なる言語モデル適応時の介入を適用することで、知識伝達がいつ成功するかについて重要な洞察を得ることができる。
論文 参考訳(メタデータ) (2024-04-10T18:56:53Z) - Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Detect Language of Transliterated Texts [0.0]
他の言語から英語へのインフォーマルな翻訳は、ソーシャルメディアのスレッド、インスタントメッセージング、ディスカッションフォーラムで一般的である。
特徴抽出のための言語識別システム(LID)を提案する。
単語を音節にトークン化し,Long Short-Term Memory (LSTM) ネットワークアーキテクチャを用いて,文字の翻訳言語を検出する。
論文 参考訳(メタデータ) (2020-04-26T10:28:02Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。