論文の概要: Tamil Language Computing: the Present and the Future
- arxiv url: http://arxiv.org/abs/2407.08618v1
- Date: Thu, 11 Jul 2024 15:56:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 16:50:17.837314
- Title: Tamil Language Computing: the Present and the Future
- Title(参考訳): タミル語コンピューティングの現状と将来
- Authors: Kengatharaiyer Sarveswaran,
- Abstract要約: 言語コンピューティングは言語学、コンピュータ科学、認知心理学を統合し、有意義な人間とコンピュータの相互作用を作り出す。
近年のディープラーニングの進歩により、コンピュータはよりアクセスしやすくなり、独立した学習と適応が可能になった。
この論文は、日常的なコミュニケーションニーズに対応するために、Tamilのような言語のための実用的なアプリケーションを構築することの重要性を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper delves into the text processing aspects of Language Computing, which enables computers to understand, interpret, and generate human language. Focusing on tasks such as speech recognition, machine translation, sentiment analysis, text summarization, and language modelling, language computing integrates disciplines including linguistics, computer science, and cognitive psychology to create meaningful human-computer interactions. Recent advancements in deep learning have made computers more accessible and capable of independent learning and adaptation. In examining the landscape of language computing, the paper emphasises foundational work like encoding, where Tamil transitioned from ASCII to Unicode, enhancing digital communication. It discusses the development of computational resources, including raw data, dictionaries, glossaries, annotated data, and computational grammars, necessary for effective language processing. The challenges of linguistic annotation, the creation of treebanks, and the training of large language models are also covered, emphasising the need for high-quality, annotated data and advanced language models. The paper underscores the importance of building practical applications for languages like Tamil to address everyday communication needs, highlighting gaps in current technology. It calls for increased research collaboration, digitization of historical texts, and fostering digital usage to ensure the comprehensive development of Tamil language processing, ultimately enhancing global communication and access to digital services.
- Abstract(参考訳): 本稿では、コンピュータが人間の言語を理解し、解釈し、生成できるようにするLanguage Computingのテキスト処理の側面について述べる。
音声認識、機械翻訳、感情分析、テキスト要約、言語モデリングといったタスクに焦点を当てた言語コンピューティングは、言語学、コンピュータ科学、認知心理学などの分野を統合し、有意義な人間とコンピュータの相互作用を生み出す。
近年のディープラーニングの進歩により、コンピュータはよりアクセスしやすくなり、独立した学習と適応が可能になった。
言語コンピューティングの状況を調べる上で、この論文は、タミルがASCIIからUnicodeに移行し、デジタル通信を強化したエンコーディングのような基礎的な作業を強調している。
効率的な言語処理に必要な生データ、辞書、用語集、注釈付きデータ、計算文法などの計算資源の開発について論じる。
言語アノテーションの課題、ツリーバンクの作成、および大規模言語モデルの訓練についても取り上げ、高品質で注釈付きデータや高度な言語モデルの必要性を強調している。
この論文は、日々のコミュニケーションのニーズに対応するために、Tamilのような言語のための実用的なアプリケーションを構築することの重要性を強調し、現在の技術のギャップを強調している。
研究協力の強化、歴史文書のデジタル化、タミル語処理の包括的な開発を保証するためのデジタル利用の促進、そして最終的にはグローバルなコミュニケーションとデジタルサービスへのアクセスを強化することを求めている。
関連論文リスト
- Enhancing Language Learning through Technology: Introducing a New English-Azerbaijani (Arabic Script) Parallel Corpus [0.9051256541674136]
本稿では,英語・アゼルバイジャン語の並列コーパスについて紹介する。
これは、低リソース言語のための言語学習と機械翻訳の技術的ギャップを埋めるように設計されている。
論文 参考訳(メタデータ) (2024-07-06T21:23:20Z) - Sanskrit Knowledge-based Systems: Annotation and Computational Tools [0.12086712057375555]
我々はサンスクリットの知識システム開発における課題と機会に対処する。
本研究はサンスクリット語文に具現化された豊かな言語情報の保存,理解,活用に寄与する。
論文 参考訳(メタデータ) (2024-06-26T12:00:10Z) - Language Detection for Transliterated Content [0.0]
我々は、英語のアルファベットを母国語でメッセージを伝えるために使用する翻訳の広汎な利用について研究する。
本稿では,ヒンディー語とロシア語を英語に翻訳した音声テキストのデータセットを用いて,この問題に対処する。
この研究は、翻訳されたテキストを識別し、変換するための革新的なアプローチの先駆者である。
論文 参考訳(メタデータ) (2024-01-09T15:40:54Z) - A Comprehensive Understanding of Code-mixed Language Semantics using
Hierarchical Transformer [28.3684494647968]
コード混合言語のセマンティクスを学習するための階層型トランスフォーマーベースアーキテクチャ(HIT)を提案する。
提案手法を17のデータセット上で6つのインド語と9つのNLPタスクで評価した。
論文 参考訳(メタデータ) (2022-04-27T07:50:18Z) - Pretraining with Artificial Language: Studying Transferable Knowledge in
Language Models [32.27333420000134]
ニューラルネットワークエンコーダが自然言語処理にどのような構造的知識を伝達できるかを考察する。
我々は、自然言語を模倣する構造的特性を持つ人工言語を設計し、データ上にエンコーダを事前訓練し、そのエンコーダが自然言語の下流タスクにどれだけの性能を示すかを確認する。
論文 参考訳(メタデータ) (2022-03-19T13:29:48Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z) - Experience Grounds Language [185.73483760454454]
言語理解研究は、言語が記述する物理的世界と、それが促進する社会的相互作用とを関連づけることに失敗している。
テキストだけで訓練された後にタスクに取り組むための言語処理モデルの驚くべき効果にもかかわらず、成功した言語コミュニケーションは世界の共有経験に依存している。
論文 参考訳(メタデータ) (2020-04-21T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。