論文の概要: Neural Approaches for Data Driven Dependency Parsing in Sanskrit
- arxiv url: http://arxiv.org/abs/2004.08076v1
- Date: Fri, 17 Apr 2020 06:47:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 13:17:08.541534
- Title: Neural Approaches for Data Driven Dependency Parsing in Sanskrit
- Title(参考訳): サンスクリットにおけるデータ駆動依存解析のためのニューラルアプローチ
- Authors: Amrith Krishna, Ashim Gupta, Deepak Garasangi, Jivnesh Sandhan,
Pavankumar Satuluri, Pawan Goyal
- Abstract要約: 我々は、もともと異なる言語向けに提案された4つの異なるデータ駆動機械学習モデルを評価し、サンスクリットデータの性能を比較した。
低リソース環境での各モデルのパフォーマンスを1500文のトレーニングで比較する。
また,これらのシステムに対して文を入力として提供する単語順序付けの影響について,詩文とその対応する散文順序を解析することによって検討する。
- 参考スコア(独自算出の注目度): 19.844420181108177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-driven approaches for dependency parsing have been of great interest in
Natural Language Processing for the past couple of decades. However, Sanskrit
still lacks a robust purely data-driven dependency parser, probably with an
exception to Krishna (2019). This can primarily be attributed to the lack of
availability of task-specific labelled data and the morphologically rich nature
of the language. In this work, we evaluate four different data-driven machine
learning models, originally proposed for different languages, and compare their
performances on Sanskrit data. We experiment with 2 graph based and 2
transition based parsers. We compare the performance of each of the models in a
low-resource setting, with 1,500 sentences for training. Further, since our
focus is on the learning power of each of the models, we do not incorporate any
Sanskrit specific features explicitly into the models, and rather use the
default settings in each of the paper for obtaining the feature functions. In
this work, we analyse the performance of the parsers using both an in-domain
and an out-of-domain test dataset. We also investigate the impact of word
ordering in which the sentences are provided as input to these systems, by
parsing verses and their corresponding prose order (anvaya) sentences.
- Abstract(参考訳): データ駆動による依存性解析のアプローチは、過去数十年間、自然言語処理に大きな関心を寄せてきた。
しかし、sanskritには、おそらくkrishna (2019)を除いて、堅牢な純粋データ駆動依存パーサが欠けている。
これは主に、タスク固有のラベル付きデータの可用性の欠如と、言語の形態学的に豊かな性質に起因する。
本研究では,もともと異なる言語向けに提案された4種類のデータ駆動機械学習モデルを評価し,その性能をsanskritデータで比較する。
2つのグラフベースと2つの遷移ベースのパーサで実験する。
各モデルのパフォーマンスを低リソース環境で比較し,1500文のトレーニングを行った。
さらに、各モデルの学習能力に重点を置いているため、サンスクリット固有の特徴をモデルに明示的に組み込むのではなく、各論文のデフォルト設定を使って特徴関数を取得する。
本研究では,in-domainとout-of-domainの両方のテストデータセットを用いて,パーサの性能を分析する。
また,これらのシステムに対して文を入力として提供する単語順序付けの影響についても検討し,文文とその対応する散文順序(アンバヤ)を解析する。
関連論文リスト
- One Model is All You Need: ByT5-Sanskrit, a Unified Model for Sanskrit NLP Tasks [26.848664285007022]
ByT5-Sanskritは、形態的にリッチなサンスクリット言語を含むNLPアプリケーション向けに設計された。
外部の言語資源によってカバーされていないデータへのデプロイが容易で、より堅牢である。
提案手法は,他の形態学的にリッチな言語に対する補題化と依存関係解析のための新たなベストスコアが得られることを示す。
論文 参考訳(メタデータ) (2024-09-20T22:02:26Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface
for Pedagogical and Annotation Purposes [13.585440544031584]
ニューラルサンスクリット自然言語処理(NLP)ツールキットであるSanskritShalaを提案する。
本システムでは,全タスクで利用可能なベンチマークデータセットについて,最先端のパフォーマンスを報告している。
SanskritShalaはWebベースのアプリケーションとしてデプロイされ、ユーザが入力に対してリアルタイムに分析することができる。
論文 参考訳(メタデータ) (2023-02-19T09:58:55Z) - Multi-Scales Data Augmentation Approach In Natural Language Inference
For Artifacts Mitigation And Pre-Trained Model Optimization [0.0]
クラウドソーシングされたStanford Natural Language Inference corpus内でデータセットのアーティファクトを分析し、配置するための様々な技術を提供する。
データセットアーティファクトを緩和するために、2つの異なるフレームワークで独自のマルチスケールデータ拡張技術を採用している。
本手法は, 摂動試験に対するモデルの抵抗性を向上し, トレーニング済みベースラインの連続的な性能向上を可能にする。
論文 参考訳(メタデータ) (2022-12-16T23:37:44Z) - Selective Annotation Makes Language Models Better Few-Shot Learners [97.07544941620367]
大規模な言語モデルはコンテキスト内学習を実行でき、いくつかのタスクデモから新しいタスクを学ぶことができる。
本研究は、新しい自然言語タスクのためのデータセット作成において、文脈内学習がもたらす意味について考察する。
本稿では,無教師付きグラフベースの選択的アノテーションであるvoke-kを提案する。
論文 参考訳(メタデータ) (2022-09-05T14:01:15Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。