論文の概要: Systematic Investigation of Strategies Tailored for Low-Resource
Settings for Sanskrit Dependency Parsing
- arxiv url: http://arxiv.org/abs/2201.11374v1
- Date: Thu, 27 Jan 2022 08:24:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 22:42:29.091730
- Title: Systematic Investigation of Strategies Tailored for Low-Resource
Settings for Sanskrit Dependency Parsing
- Title(参考訳): サンスクリット依存解析のための低リソース設定のための戦略の体系的検討
- Authors: Jivnesh Sandhan, Laxmidhar Behera and Pawan Goyal
- Abstract要約: Sanskrit Dependency Parsing (SDP) の既存の手法は、本質的にハイブリッドである。
純粋にデータ駆動アプローチは、ラベル付きデータ間隔によるハイブリッドアプローチのパフォーマンスにマッチしない。
我々は、データ強化、シーケンシャルトランスファーラーニング、クロスランガル/モノランガル事前学習、マルチタスク学習、自己学習の5つの戦略を実験した。
提案するアンサンブルシステムは, 純粋にデータ駆動状態よりも2.8/3.9ポイント(Unlabelled Attachment Score (UAS)/Labelled Attachment Score (LAS))の絶対ゲインに優れる。
- 参考スコア(独自算出の注目度): 14.416855042499945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing state of the art approaches for Sanskrit Dependency Parsing (SDP),
are hybrid in nature, and rely on a lexicon-driven shallow parser for
linguistically motivated feature engineering. However, these methods fail to
handle out of vocabulary (OOV) words, which limits their applicability in
realistic scenarios. On the other hand, purely data-driven approaches do not
match the performance of hybrid approaches due to the labelled data sparsity.
Thus, in this work, we investigate the following question: How far can we push
a purely data-driven approach using recently proposed strategies for
low-resource settings? We experiment with five strategies, namely, data
augmentation, sequential transfer learning, cross-lingual/mono-lingual
pretraining, multi-task learning and self-training. Our proposed ensembled
system outperforms the purely data-driven state of the art system by 2.8/3.9
points (Unlabelled Attachment Score (UAS)/Labelled Attachment Score (LAS))
absolute gain. Interestingly, it also supersedes the performance of the state
of the art hybrid system by 1.2 points (UAS) absolute gain and shows comparable
performance in terms of LAS. Code and data will be publicly available at:
\url{https://github.com/Jivnesh/SanDP}.
- Abstract(参考訳): Sanskrit Dependency Parsing (SDP) の既存の技術アプローチは、本質的にハイブリッドであり、言語的に動機付けられた特徴工学のためのレキシコン駆動の浅いパーサーに依存している。
しかし、これらの手法は語彙(OOV)の扱いに失敗し、現実的なシナリオにおける適用性を制限する。
一方、純粋データ駆動アプローチはラベル付きデータスパーシティのため、ハイブリッドアプローチのパフォーマンスに合わない。
我々は、最近提案された低リソース設定のための戦略を使って、純粋なデータ駆動アプローチをどこまで進めることができるのか?
データ拡張,シーケンシャル転送学習,クロスリンガル/モノリンガル事前学習,マルチタスク学習,セルフトレーニングという5つの戦略を実験した。
提案するアンサンブルシステムは,純データ駆動型システムにおいて,Unlabelled Attachment Score (UAS)/Labelled Attachment Score (LAS))の絶対ゲインを2.8/3.9ポイント向上させる。
興味深いことに、これは art hybrid system の状態を 1.2 ポイント (uas) の絶対利得で上回っており、las の点で同等のパフォーマンスを示している。
コードとデータは: \url{https://github.com/Jivnesh/SanDP}.comで公開される。
関連論文リスト
- Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究では,各資源とその品質が満州語による翻訳性能に与える影響を体系的に検討した。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - Token-Level Graphs for Short Text Classification [1.6819960041696331]
本稿では,事前学習言語モデル(PLM)を用いて得られたトークンに基づいて,完全にテキストグラフを構築する手法を提案する。
本手法は文脈情報や意味情報を抽出し,語彙制約を克服し,文脈に依存した単語の意味を抽出する。
実験により,本手法が既存の手法で高いスコアやオンパー性能を連続的に達成する方法が実証された。
論文 参考訳(メタデータ) (2024-12-17T10:19:44Z) - Uniform Discretized Integrated Gradients: An effective attribution based method for explaining large language models [0.0]
統合グラディエンス(Integrated Gradients)は、ディープラーニングモデルを説明するテクニックとしてよく知られている。
本稿では,UDIG(Uniform Discretized Integrated Gradients)と呼ばれる手法を提案する。
本手法は,2種類のNLPタスクに対して,3つのメトリクスビズログオッズ,包括性,十分性に対する感性分類と質問応答について検討した。
論文 参考訳(メタデータ) (2024-12-05T05:39:03Z) - Cross-lingual Back-Parsing: Utterance Synthesis from Meaning Representation for Zero-Resource Semantic Parsing [6.074150063191985]
Cross-Lingual Back-Parsing(クロスリンガル・バック・パーシング)は、セマンティック・パーシングのためのクロスリンガル・トランスファーを強化するために設計された新しいデータ拡張手法である。
提案手法は,ゼロリソース設定に挑戦する上で,言語間データ拡張を効果的に行う。
論文 参考訳(メタデータ) (2024-10-01T08:53:38Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Selective In-Context Data Augmentation for Intent Detection using
Pointwise V-Information [100.03188187735624]
PLMとPVI(pointwise V-information)に基づく新しい手法を導入し,モデル学習におけるデータポイントの有用性を計測する。
提案手法はまず,学習データの小さなシード上でPLMを微調整し,与えられた意図に対応する発話を新たに生成する。
そこで本手法は,大規模言語モデルの表現力を活用し,多様な学習データを生成する。
論文 参考訳(メタデータ) (2023-02-10T07:37:49Z) - SegAugment: Maximizing the Utility of Speech Translation Data with
Segmentation-based Augmentations [2.535399238341164]
エンドツーエンドの音声翻訳は、利用可能なデータリソースの不足によって妨げられます。
この問題に対処するために,新たなデータ拡張戦略であるSegAugmentを提案する。
また,提案手法は文レベルデータセットの強化にも有効であることを示す。
論文 参考訳(メタデータ) (2022-12-19T18:29:31Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。