論文の概要: For the Purpose of Curry: A UD Treebank for Ashokan Prakrit
- arxiv url: http://arxiv.org/abs/2111.12783v1
- Date: Wed, 24 Nov 2021 20:30:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-05 04:42:46.703865
- Title: For the Purpose of Curry: A UD Treebank for Ashokan Prakrit
- Title(参考訳): カレーの目的:アショカン・プラークリットのためのUDツリーバンク
- Authors: Adam Farris, Aryaman Arora
- Abstract要約: 我々はアショカン・プラークリットの最初の言語的注釈付きツリーバンクを提示する。
これは、紀元前3世紀のアショーカ・モーリヤ帝の岩と柱の宣言によって証明された、インド・アーリアの初期の方言連続体である。
- 参考スコア(独自算出の注目度): 2.538209532048867
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present the first linguistically annotated treebank of Ashokan Prakrit, an
early Middle Indo-Aryan dialect continuum attested through Emperor Ashoka
Maurya's 3rd century BCE rock and pillar edicts. For annotation, we used the
multilingual Universal Dependencies (UD) formalism, following recent UD work on
Sanskrit and other Indo-Aryan languages. We touch on some interesting
linguistic features that posed issues in annotation: regnal names and other
nominal compounds, "proto-ergative" participial constructions, and possible
grammaticalizations evidenced by sandhi (phonological assimilation across
morpheme boundaries). Eventually, we plan for a complete annotation of all
attested Ashokan texts, towards the larger goals of improving UD coverage of
different diachronic stages of Indo-Aryan and studying language change in
Indo-Aryan using computational methods.
- Abstract(参考訳): アショーカ・プラクリット(ashokan prakrit)は、アショーカ・モーリヤ皇帝の紀元前3世紀の岩と柱による古代インド・アーリア方言連続体である。
アノテーションでは,サンスクリットや他のインド・アーリア語に関する最近のUD研究に続いて,多言語共通依存(UD)形式を用いた。
アノテーションに問題をもたらす興味深い言語的特徴として、レギュナルな名前や他の名目的な化合物、"proto-ergative"な参加構造、およびサンディーによって証明された文法化について触れる。
最終的には,インド・アーリアンの異なるダイアクロニックステージのudカバレッジ向上と計算手法によるインド・アーリアンの言語変化の研究という,より大きな目標に向けて,すべてのアショカテキストの完全なアノテーションを計画する。
関連論文リスト
- MaiBaam: A Multi-Dialectal Bavarian Universal Dependency Treebank [56.810282574817414]
We present the first multi-dialect Bavarian treebank (MaiBaam) based with part-of-speech and syntactic dependency information in Universal Dependencies (UD)。
我々は、近縁なバイエルン語とドイツ語のモルフォシンタクティックな相違を強調し、話者の正書法の豊富な多様性を示す。
私たちのコーパスには15kのトークンが含まれており、3つの国にまたがるバイエルン語を話すすべての地域の方言をカバーしています。
論文 参考訳(メタデータ) (2024-03-15T13:33:10Z) - Enriching the NArabizi Treebank: A Multifaceted Approach to Supporting
an Under-Resourced Language [0.0]
ナラビジ (Narabizi) は、主にソーシャルメディアで使用される北アフリカのアラビア語のローマ字形である。
NArabizi Treebankの豊富なバージョンを紹介します。
論文 参考訳(メタデータ) (2023-06-26T17:27:31Z) - Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-14T01:24:03Z) - MASALA: Modelling and Analysing the Semantics of Adpositions in
Linguistic Annotation of Hindi [11.042037758273226]
我々は言語モデルを用いてヒンディー語におけるSNACSスーパーセンスの自動ラベリングを試みる。
Gujaratiのような関連言語へのセマンティックロールラベリングや拡張におけるアップストリームアプリケーションについて検討する。
論文 参考訳(メタデータ) (2022-05-08T21:13:33Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Role of Language Relatedness in Multilingual Fine-tuning of Language
Models: A Case Study in Indo-Aryan Languages [34.79533646549939]
我々は,多言語微調整を用いたNLPモデルにおいて,同族に属する言語の関連性を活用した影響について検討する。
Oriya や Punjabi のような低資源言語は多言語微調整の最大の受益者である。
論文 参考訳(メタデータ) (2021-09-22T06:37:39Z) - Automatic Speech Recognition in Sanskrit: A New Speech Corpus and
Modelling Insights [25.666767669695044]
サンスクリット語で表現される言語的特徴を忠実に捉えた78時間のASRデータセットをリリースする。
単語中の1つの母音から次の母音への文字列をキャプチャする,音節レベルの単位選択にインスパイアされた新しいモデリング単位を提案する。
我々はこれらの知見をサンスクリットASRから拡張し、他の2つのIndic言語であるGujaratiとTeluguでASRシステムを構築する。
論文 参考訳(メタデータ) (2021-06-02T18:06:32Z) - Towards One Model to Rule All: Multilingual Strategy for Dialectal
Code-Switching Arabic ASR [11.363966269198064]
自己アテンションに基づくコンストラクタアーキテクチャを用いて,多言語対応の大規模ASRを設計する。
我々はアラビア語(Ar)、英語(En)、フランス語(Fr)を用いてシステムを訓練した。
以上の結果から,最先端のモノリンガル方言アラビア語およびコードスイッチングアラビアASRよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-05-31T08:20:38Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。