論文の概要: Language Identification of Devanagari Poems
- arxiv url: http://arxiv.org/abs/2012.15023v1
- Date: Wed, 30 Dec 2020 03:36:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 17:37:38.137564
- Title: Language Identification of Devanagari Poems
- Title(参考訳): デヴァナガリ詩の言語識別
- Authors: Priyankit Acharya, Aditya Ku. Pathak, Rakesh Ch. Balabantaray, and
Anil Ku. Singh
- Abstract要約: 本稿では,詩解析タスクのための詩の自動言語識別手法を提案する。
インドのデヴァナガリ語を母語とする10の言語からなる。
Angika, Awadhi, Braj, Bhojpuri, Chhattisgarhi, Garhwali, Haryanvi, Hindi, Magahi, Maithili。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Language Identification is a very important part of several text processing
pipelines. Extensive research has been done in this field. This paper proposes
a procedure for automatic language identification of poems for poem analysis
task, consisting of 10 Devanagari based languages of India i.e. Angika, Awadhi,
Braj, Bhojpuri, Chhattisgarhi, Garhwali, Haryanvi, Hindi, Magahi, and Maithili.
We collated corpora of poems of varying length and studied the similarity of
poems among the 10 languages at the lexical level. Finally, various language
identification systems based on supervised machine learning and deep learning
techniques are applied and evaluated.
- Abstract(参考訳): 言語識別は、いくつかのテキスト処理パイプラインで非常に重要な部分です。
この分野では広範な研究が行われている。
本稿では,インドにおける10のデバナガリ言語からなる詩分析課題における詩の自動言語識別手法を提案する。
Angika, Awadhi, Braj, Bhojpuri, Chhattisgarhi, Garhwali, Haryanvi, Hindi, Magahi, Maithili。
長さの異なる詩のコーパスを照合し,語彙レベルで10言語間の詩の類似性を検討した。
最後に、教師付き機械学習とディープラーニング技術に基づく各種言語識別システムを適用し、評価する。
関連論文リスト
- Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - Urdu Poetry Generated by Using Deep Learning Techniques [1.52292571922932]
本研究は,異なる深層学習手法とアルゴリズムを用いてウルドゥー詩を生成する。
データはRekhtaのウェブサイトから収集され、1341のテキストファイルといくつかのカップルが含まれている。
論文 参考訳(メタデータ) (2023-09-25T15:44:24Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - Aesthetics of Sanskrit Poetry from the Perspective of Computational
Linguistics: A Case Study Analysis on Siksastaka [11.950202012146498]
本稿では,サンスクリット詩と計算言語学の交わりについて考察する。
本研究では,サンスクリット詩の質と特徴を分析し,分類するための解釈可能なフレームワークのロードマップを提案する。
我々は6つの著名なカヴィアシャストラの流派の観点から、サンスクリットの詩であるシカサタカを深く分析する。
論文 参考訳(メタデータ) (2023-08-14T11:26:25Z) - ALBERTI, a Multilingual Domain Specific Language Model for Poetry
Analysis [0.0]
我々は、詩のための最初の多言語事前訓練された大規模言語モデルであるtextscAlbertiを提示する。
さらに12言語から1200万節以上のコーパスで多言語BERTを訓練した。
textscAlbertiは、ルールベースのシステムと比較して、ドイツ語の最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-07-03T22:50:53Z) - CCPM: A Chinese Classical Poetry Matching Dataset [50.90794811956129]
本稿では,詩のマッチングによるモデルの意味的理解を評価するための新しい課題を提案する。
この課題は、現代漢訳の漢詩では、4人の候補者の中から1行の漢詩を選ばなければならない。
このデータセットを構築するために、まず中国古典詩と現代中国語の翻訳の並列データを得る。
論文 参考訳(メタデータ) (2021-06-03T16:49:03Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Anubhuti -- An annotated dataset for emotional analysis of Bengali short
stories [2.3424047967193826]
アヌブティはベンガルの短編小説の著者が表現した感情を分析するための最初の、そして最大のテキストコーパスである。
本稿では,データ収集手法,手作業によるアノテーション処理,そして結果として生じるハイアノテータ間の合意について説明する。
我々は、ベースライン機械学習と感情分類のためのディープラーニングモデルを用いて、データセットの性能を検証した。
論文 参考訳(メタデータ) (2020-10-06T22:33:58Z) - A Multilingual Parallel Corpora Collection Effort for Indian Languages [43.62422999765863]
インドではヒンディー語、テルグ語、タミル語、マラヤラム語、グジャラート語、ウルドゥー語、ベンガル語、オリヤ語、マラティー語、パンジャービ語、英語の10言語に平行なコーパスを提示する。
コーパスは、言語間でコンテンツを共有するオンラインソースからコンパイルされる。
論文 参考訳(メタデータ) (2020-07-15T14:00:18Z) - Automatic Extraction of Bengali Root Verbs using Paninian Grammar [0.0]
提案システムは,動詞の時制,人格,形態的インフレクションに基づいて,その根形を見つけるために開発された。
出力の精度は98%に達し、言語専門家によって検証されている。
論文 参考訳(メタデータ) (2020-03-31T20:22:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。