論文の概要: On the First Computer Science Research Paper in an Indian Language and the Future of Science in Indian Languages
- arxiv url: http://arxiv.org/abs/2604.03265v1
- Date: Sat, 14 Mar 2026 20:33:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.57088
- Title: On the First Computer Science Research Paper in an Indian Language and the Future of Science in Indian Languages
- Title(参考訳): インド語における第1回コンピュータサイエンス研究論文とインド語科学の将来について
- Authors: Siddhartha Visveswara Jayanti,
- Abstract要約: 私は、最初のオリジナルで近代的なコンピュータサイエンスの研究論文を、完全にインド語で表現した経験について説明する。
論文は、約1億人の話者を持つ言語であるTeluguにある。
私は、Indic言語におけるあらゆるレベルで科学的な文章の状態を改善する方法のビジョンを定めています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: I describe my experience writing the first original, modern Computer Science research paper expressed entirely in an Indian language. The paper is in Telugu, a language with approximately 100 million speakers. The paper is in the field of distributed computing and it introduces a technique for proving epistemic logic based lower bounds for multiprocessor algorithms. A key hurdle to writing the paper was developing technical terminology for advanced computer science concepts, including those in algorithms, distributed computing, and discrete mathematics. I overcame this challenge by deriving and coining native language scientific terminology through the powerful, productive, Pāninian grammar of Samskrtam. The typesetting of the paper was an additional challenge, since mathematical typesetting in Telugu is underdeveloped. I overcame this problem by developing a Telugu XeLaTeX template, which I call TeluguTeX. Leveraging this experience of writing an original computer science research paper in an Indian language, I lay out a vision for how to ameliorate the state of scientific writing at all levels in Indic languages -- languages whose native speakers exceed one billion people -- through the further development of the Sanskrit technical lexicon and through technological internationalization.
- Abstract(参考訳): 私は、最初のオリジナルでモダンなコンピュータサイエンスの研究論文をインドの言語で完全に表現した経験を記述します。
論文は、約1億人の話者を持つ言語であるTeluguにある。
本論文は分散コンピューティングの分野において,マルチプロセッサアルゴリズムにおける認識論理に基づく下界の証明手法を提案する。
論文を書く上で重要なハードルは、アルゴリズム、分散コンピューティング、離散数学など、先進的なコンピュータ科学の概念の技術的用語を開発することだった。
私はこの課題を克服し、サンスカルタムの強力で生産的なパニン語の文法を通じて、母国語科学用語を導出し、鋳造しました。
この論文の型付けは、テルグの数学的型付けが未開発であるため、さらなる課題となった。
私はTelugu XeLaTeXテンプレートを開発することでこの問題を克服しました。
インド語でオリジナルのコンピュータサイエンス研究論文を書くというこの経験を活用して、サンスクリットの技術的レキシコンのさらなる発展と技術国際化を通じて、ネイティブスピーカーが10億人を超える言語である、あらゆるレベルでの科学的な記述の状態を改善する方法のビジョンを説明した。
関連論文リスト
- A Review of the Marathi Natural Language Processing [0.0]
本稿では,インド語におけるNLP研究の進展について概説する。
Marathiと、研究コミュニティが利用できる最先端のリソースとツールに焦点を当てている。
論文 参考訳(メタデータ) (2024-12-20T00:56:13Z) - Tamil Language Computing: the Present and the Future [0.0]
言語コンピューティングは言語学、コンピュータ科学、認知心理学を統合し、有意義な人間とコンピュータの相互作用を作り出す。
近年のディープラーニングの進歩により、コンピュータはよりアクセスしやすくなり、独立した学習と適応が可能になった。
この論文は、日常的なコミュニケーションニーズに対応するために、Tamilのような言語のための実用的なアプリケーションを構築することの重要性を強調している。
論文 参考訳(メタデータ) (2024-07-11T15:56:02Z) - MathPile: A Billion-Token-Scale Pretraining Corpus for Math [45.163340937419214]
約950億のトークンからなる多様で高品質な数学中心コーパスであるMathPileを紹介します。
精巧なデータ収集と処理には、複雑な事前処理が含まれていました。
我々は、言語モデルの数学的推論能力を向上し、異なるバージョンをオープンソース化し、フィールドを前進させるためにスクリプトをプロセッシングすることを目指しています。
論文 参考訳(メタデータ) (2023-12-28T16:55:40Z) - Linguistically-Informed Neural Architectures for Lexical, Syntactic and
Semantic Tasks in Sanskrit [1.184066113335041]
この論文は、サンスクリット写本を自然言語技術を通じてエンドユーザーにとってよりアクセスしやすくすることを目的としている。
サンスクリットの形態的豊かさ、複合性、自由語順性、低リソース性は、ディープラーニングソリューションを開発する上で重要な課題となっている。
我々は,サンスクリットの堅牢なNLP技術開発に不可欠な4つの基本課題を特定した。
論文 参考訳(メタデータ) (2023-08-17T06:33:33Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Utilizing Wordnets for Cognate Detection among Indian Languages [50.83320088758705]
ヒンディー語と10のインド諸語間の単語対を検出する。
深層学習手法を用いて単語対が共生か否かを予測する。
性能は最大26%向上した。
論文 参考訳(メタデータ) (2021-12-30T16:46:28Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection [81.85463892070085]
形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
論文 参考訳(メタデータ) (2020-06-20T13:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。