論文の概要: MASALA: Modelling and Analysing the Semantics of Adpositions in
Linguistic Annotation of Hindi
- arxiv url: http://arxiv.org/abs/2205.03955v1
- Date: Sun, 8 May 2022 21:13:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-11 02:41:02.575486
- Title: MASALA: Modelling and Analysing the Semantics of Adpositions in
Linguistic Annotation of Hindi
- Title(参考訳): MASALA:ヒンディー語表記における代名詞の意味論のモデル化と分析
- Authors: Aryaman Arora, Nitin Venkateswaran, Nathan Schneider
- Abstract要約: 我々は言語モデルを用いてヒンディー語におけるSNACSスーパーセンスの自動ラベリングを試みる。
Gujaratiのような関連言語へのセマンティックロールラベリングや拡張におけるアップストリームアプリケーションについて検討する。
- 参考スコア(独自算出の注目度): 11.042037758273226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a completed, publicly available corpus of annotated semantic
relations of adpositions and case markers in Hindi. We used the multilingual
SNACS annotation scheme, which has been applied to a variety of typologically
diverse languages. Building on past work examining linguistic problems in SNACS
annotation, we use language models to attempt automatic labelling of SNACS
supersenses in Hindi and achieve results competitive with past work on English.
We look towards upstream applications in semantic role labelling and extension
to related languages such as Gujarati.
- Abstract(参考訳): 本稿では,ヒンディー語における形容詞と事例マーカーの注釈付き意味関係の完全な公開コーパスについて述べる。
我々は多言語SNACSアノテーションスキームを用い,様々な言語に応用した。
SNACSアノテーションの言語問題を調べる過去の研究に基づいて、ヒンディー語におけるSNACSスーパーセンスの自動ラベリングを試みるために言語モデルを用いて、過去の英語研究と競合する結果を得る。
Gujaratiのような関連言語へのセマンティックロールラベリングや拡張におけるアップストリームアプリケーションについて検討する。
関連論文リスト
- Limpeh ga li gong: Challenges in Singlish Annotations [1.3812010983144802]
本稿では,Singlish文のPOSタグ付けという,自然言語処理の基本タスクについて検討する。
そこで本研究では,ネイティブなSinglish話者による翻訳とPOSアノテーションを用いて,直接英訳とPOSタグを含む並列Singlishデータセットを構築した。
自動トランジションおよびトランスフォーマーベースのタグは、人名付きPOSラベルに対して評価すると、たったの$sim 80%の精度で実行される。
論文 参考訳(メタデータ) (2024-10-21T16:21:45Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Enriching the NArabizi Treebank: A Multifaceted Approach to Supporting
an Under-Resourced Language [0.0]
ナラビジ (Narabizi) は、主にソーシャルメディアで使用される北アフリカのアラビア語のローマ字形である。
NArabizi Treebankの豊富なバージョンを紹介します。
論文 参考訳(メタデータ) (2023-06-26T17:27:31Z) - Automatic Readability Assessment for Closely Related Languages [6.233117407988574]
この研究は、相互の知性や言語関連度などの言語的側面が、低リソース環境でのARAをどのように改善できるかに焦点を当てる。
フィリピン・タガログ語・ビコル語・セブアーノ語の3言語で書かれた短い記事を収集し,読みやすさ評価モデルを構築した。
本研究は, 相互信頼度の高い言語にn-gram重み付けを適用した新たな機能であるCrossNGOの導入により, ARAモデルの性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-05-22T20:42:53Z) - SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface
for Pedagogical and Annotation Purposes [13.585440544031584]
ニューラルサンスクリット自然言語処理(NLP)ツールキットであるSanskritShalaを提案する。
本システムでは,全タスクで利用可能なベンチマークデータセットについて,最先端のパフォーマンスを報告している。
SanskritShalaはWebベースのアプリケーションとしてデプロイされ、ユーザが入力に対してリアルタイムに分析することができる。
論文 参考訳(メタデータ) (2023-02-19T09:58:55Z) - Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-14T01:24:03Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Utilizing Wordnets for Cognate Detection among Indian Languages [50.83320088758705]
ヒンディー語と10のインド諸語間の単語対を検出する。
深層学習手法を用いて単語対が共生か否かを予測する。
性能は最大26%向上した。
論文 参考訳(メタデータ) (2021-12-30T16:46:28Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - For the Purpose of Curry: A UD Treebank for Ashokan Prakrit [2.538209532048867]
我々はアショカン・プラークリットの最初の言語的注釈付きツリーバンクを提示する。
これは、紀元前3世紀のアショーカ・モーリヤ帝の岩と柱の宣言によって証明された、インド・アーリアの初期の方言連続体である。
論文 参考訳(メタデータ) (2021-11-24T20:30:09Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。