Fugu-MT 論文翻訳(概要): Language Detection for Transliterated Content

論文の概要: Language Detection for Transliterated Content

arxiv url: http://arxiv.org/abs/2401.04619v1
Date: Tue, 9 Jan 2024 15:40:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-10 15:23:19.304907
Title: Language Detection for Transliterated Content
Title（参考訳）: 翻訳コンテンツの言語検出
Authors: Selva Kumar S, Afifah Khan Mohammed Ajmal Khan, Chirag Manjeshwar, Imadh Ajaz Banday
Abstract要約: 我々は、英語のアルファベットを母国語でメッセージを伝えるために使用する翻訳の広汎な利用について研究する。本稿では,ヒンディー語とロシア語を英語に翻訳した音声テキストのデータセットを用いて,この問題に対処する。この研究は、翻訳されたテキストを識別し、変換するための革新的なアプローチの先駆者である。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the contemporary digital era, the Internet functions as an unparalleled catalyst, dismantling geographical and linguistic barriers particularly evident in texting. This evolution facilitates global communication, transcending physical distances and fostering dynamic cultural exchange. A notable trend is the widespread use of transliteration, where the English alphabet is employed to convey messages in native languages, posing a unique challenge for language technology in accurately detecting the source language. This paper addresses this challenge through a dataset of phone text messages in Hindi and Russian transliterated into English utilizing BERT for language classification and Google Translate API for transliteration conversion. The research pioneers innovative approaches to identify and convert transliterated text, navigating challenges in the diverse linguistic landscape of digital communication. Emphasizing the pivotal role of comprehensive datasets for training Large Language Models LLMs like BERT, our model showcases exceptional proficiency in accurately identifying and classifying languages from transliterated text. With a validation accuracy of 99% our models robust performance underscores its reliability. The comprehensive exploration of transliteration dynamics supported by innovative approaches and cutting edge technologies like BERT, positions our research at the forefront of addressing unique challenges in the linguistic landscape of digital communication. Beyond contributing to language identification and transliteration capabilities this work holds promise for applications in content moderation, analytics and fostering a globally connected community engaged in meaningful dialogue.
Abstract（参考訳）: 現代のデジタル時代には、インターネットは例外なく触媒として機能し、特にテキストメッセージで明らかな地理的および言語的障壁を分解する。この進化は、グローバルなコミュニケーションを促進し、物理的距離を超越し、動的な文化交流を育む。顕著な傾向は、英語のアルファベットが母国語でメッセージを伝えるのに使われており、ソース言語を正確に検出する上で、言語技術にとってユニークな課題である。本稿では,言語分類にBERT,翻訳変換にGoogle Translate APIを用い,ヒンディー語とロシア語を英語に翻訳した音声テキストのデータセットを用いてこの問題に対処する。この研究は、デジタルコミュニケーションの多様な言語的展望における課題をナビゲートし、翻訳されたテキストを識別し変換するための革新的なアプローチの先駆者である。 BERT のような大規模言語モデル LLM の学習における包括的データセットの役割を強調し,翻訳されたテキストから言語を正確に識別し分類する能力を示す。 99%の検証精度で、ロバストなパフォーマンスは信頼性を低下させます。革新的なアプローチやbertのような最先端技術によって支持される翻訳ダイナミクスの包括的探究は、デジタルコミュニケーションの言語的展望におけるユニークな課題に取り組むための最前線に私たちの研究を置きます。言語識別と翻訳機能への貢献以外にも、この研究はコンテンツモデレーション、分析、そして意味のある対話に携わるグローバルなコミュニティの育成におけるアプリケーションの可能性を秘めている。

関連論文リスト

Analyzing and Improving Cross-lingual Knowledge Transfer for Machine Translation [5.878901309908815]
ニューラルモデルにおける言語間知識伝達について検討し,多言語環境におけるロバストネスと一般化を改善する手法を開発した。学習中の言語多様性の役割について検討し,翻訳範囲の増加が一般化を改善し,目標外行動を低減することを示す。
論文参考訳（メタデータ） (2026-01-07T15:51:54Z)
Integrating Linguistics and AI: Morphological Analysis and Corpus development of Endangered Toto Language of West Bengal [0.6089496237595778]
本稿では,トリンガル(トト・バングラ・英語)言語学習アプリケーションの開発を目的としたプロジェクトの一部である。インド・西ベンガルの絶滅危惧言語であるトト語をデジタルでアーカイブし、推進することを目的としている。
論文参考訳（メタデータ） (2025-10-26T11:22:46Z)
Liaozhai through the Looking-Glass: On Paratextual Explicitation of Culture-Bound Terms in Machine Translation [70.43884512651668]
我々は、文学・翻訳研究からジェネットのパラテキスト論(1987年)を定式化し、機械翻訳におけるパラテキスト明示の課題を紹介した。古典中国語の短編集集Liaozhaiの4つの英訳から560の専門家対応パラテキストのデータセットを構築した。本研究は,言語的等価性を超えた機械翻訳におけるパラテクスト的明示の可能性を示すものである。
論文参考訳（メタデータ） (2025-09-27T16:27:36Z)
Real-Time Multilingual Sign Language Processing [4.626189039960495]
手話処理(SLP)は、自然言語処理(NLP)とコンピュータビジョンからなる学際分野である。伝統的なアプローチは、言語固有のものであり、手話の多次元的な性質を捉えるのに不十分なグロスベースのシステムを使用することによって、しばしば制約されてきた。本稿では,手話文字起こし表記システムであるSignWiringを,手話の視覚・ジェスチャーのモダリティとテキストに基づく言語表現の中間的リンクとして用いることを提案する。
論文参考訳（メタデータ） (2024-12-02T21:51:41Z)
Improving Multilingual Neural Machine Translation by Utilizing Semantic and Linguistic Features [18.76505158652759]
複数の言語間の意味的特徴と言語的特徴を利用して多言語翻訳を強化することを提案する。エンコーダ側では,意味的特徴と言語的特徴を両立させることにより,エンコーダ表現を整合させる非係合学習タスクを導入する。デコーダ側では、言語エンコーダを利用して低レベル言語機能を統合し、ターゲット言語生成を支援する。
論文参考訳（メタデータ） (2024-08-02T17:10:12Z)
Tamil Language Computing: the Present and the Future [0.0]
言語コンピューティングは言語学、コンピュータ科学、認知心理学を統合し、有意義な人間とコンピュータの相互作用を作り出す。近年のディープラーニングの進歩により、コンピュータはよりアクセスしやすくなり、独立した学習と適応が可能になった。この論文は、日常的なコミュニケーションニーズに対応するために、Tamilのような言語のための実用的なアプリケーションを構築することの重要性を強調している。
論文参考訳（メタデータ） (2024-07-11T15:56:02Z)
A Roadmap for Multilingual, Multimodal Domain Independent Deception Detection [2.1506382989223782]
人間のコミュニケーションの一般的な側面である騙しは、デジタル時代において大きな変化を遂げた。近年の研究では、英語の領域にまたがる騙しに普遍的な言語的手がかりが存在する可能性が示されている。低リソース言語における誤検出の実践的課題は、ラベル付きデータがないため、よく研究されている問題ではない。
論文参考訳（メタデータ） (2024-05-07T00:38:34Z)
We're Calling an Intervention: Exploring the Fundamental Hurdles in Adapting Language Models to Nonstandard Text [8.956635443376527]
非標準テキストへの言語モデル適応の根底にある課題を理解するための一連の実験を提示する。我々は、言語モデルの既存バイアスとの相互作用と、いくつかの種類の言語的変動を近似する介入を設計する。学習データのサイズや性質の異なる言語モデル適応時の介入を適用することで、知識伝達がいつ成功するかについて重要な洞察を得ることができる。
論文参考訳（メタデータ） (2024-04-10T18:56:53Z)
Cross-lingual Text Classification Transfer: The Case of Ukrainian [11.508759658889382]
ウクライナ語は、言語間の方法論の継続的な洗練の恩恵を受けることができる言語である。我々の知る限り、典型的なテキスト分類タスクにはウクライナのコーパスが欠如している。本研究では,NLPの最先端技術を活用し,言語間知識伝達手法を探索する。
論文参考訳（メタデータ） (2024-04-02T15:37:09Z)
Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文参考訳（メタデータ） (2023-07-10T06:17:33Z)
Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-18T16:34:18Z)
Discovering Phonetic Inventories with Crosslingual Automatic Speech Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文参考訳（メタデータ） (2022-01-26T22:12:55Z)
VECO: Variable and Flexible Cross-lingual Pre-training for Language Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文参考訳（メタデータ） (2020-10-30T03:41:38Z)
Detect Language of Transliterated Texts [0.0]
他の言語から英語へのインフォーマルな翻訳は、ソーシャルメディアのスレッド、インスタントメッセージング、ディスカッションフォーラムで一般的である。特徴抽出のための言語識別システム(LID)を提案する。単語を音節にトークン化し,Long Short-Term Memory (LSTM) ネットワークアーキテクチャを用いて,文字の翻訳言語を検出する。
論文参考訳（メタデータ） (2020-04-26T10:28:02Z)
A Study of Cross-Lingual Ability and Language-specific Information in Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文参考訳（メタデータ） (2020-04-20T11:13:16Z)
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文参考訳（メタデータ） (2019-10-23T17:37:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。