論文の概要: How Universal is Genre in Universal Dependencies?
- arxiv url: http://arxiv.org/abs/2112.04971v1
- Date: Thu, 9 Dec 2021 15:06:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 17:50:13.724486
- Title: How Universal is Genre in Universal Dependencies?
- Title(参考訳): ユニバーサル依存におけるジェンダーとは?
- Authors: Max M\"uller-Eberstein, Rob van der Goot and Barbara Plank
- Abstract要約: この研究は、Universal Dependencies (UD)におけるジャンルの詳細な分析を初めて提供する。
UDには18のジャンルがあり、114の言語にまたがる様々な種類がある。
そこで本研究では,木バンクメタデータからの弱監督を利用して,インスタンスレベルのジャンルを予測する4つの手法を提案する。
- 参考スコア(独自算出の注目度): 18.755176247223616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work provides the first in-depth analysis of genre in Universal
Dependencies (UD). In contrast to prior work on genre identification which uses
small sets of well-defined labels in mono-/bilingual setups, UD contains 18
genres with varying degrees of specificity spread across 114 languages. As most
treebanks are labeled with multiple genres while lacking annotations about
which instances belong to which genre, we propose four methods for predicting
instance-level genre using weak supervision from treebank metadata. The
proposed methods recover instance-level genre better than competitive baselines
as measured on a subset of UD with labeled instances and adhere better to the
global expected distribution. Our analysis sheds light on prior work using UD
genre metadata for treebank selection, finding that metadata alone are a noisy
signal and must be disentangled within treebanks before it can be universally
applied.
- Abstract(参考訳): この研究は、Universal Dependencies (UD)におけるジャンルの詳細な分析を初めて提供する。
モノ/ビリンガルな設定で定義されたラベルの小さなセットを使用するジャンル識別に関する以前の研究とは対照的に、UDは114言語にまたがる特異性の異なる18のジャンルを含んでいる。
多くの木バンクは,どのジャンルに属しているのかアノテーションを欠いているが,複数のジャンルにラベル付けされているため,木バンクメタデータからの弱監督を利用して,インスタンスレベルのジャンルを予測する4つの手法を提案する。
提案手法は,ラベル付きインスタンスを持つudのサブセット上で測定した競合ベースラインよりもインスタンスレベルのジャンルを回復し,グローバル期待分布に適合する。
我々の分析では,木バンク選択のためのUDジャンルメタデータを用いた先行研究に光を当てており,メタデータのみがノイズの多い信号であり,木バンク内で普遍的に適用される前に切り離さなければならない。
関連論文リスト
- Universal Cross-Lingual Text Classification [0.3958317527488535]
本研究は,言語横断テキスト分類における新たな視点を提案する。
我々のアプローチは、訓練中に異なる言語からの教師付きデータをブレンドして普遍的なモデルを作成することである。
主な目標は、ラベルと言語カバレッジを強化することであり、様々な言語のラベルの結合を表すラベルセットを目指している。
論文 参考訳(メタデータ) (2024-06-16T17:58:29Z) - Harnessing Hierarchical Label Distribution Variations in Test Agnostic Long-tail Recognition [114.96385572118042]
テストラベルの分布の変動は階層的にグローバルレベルとローカルレベルに分解できると主張している。
ラベル分布の異なるDirichletメタ分布に専門家を割り当てる新しいMoE戦略である$mathsfDirMixE$を提案する。
本稿では,分散に基づく正規化による一般化の促進による目的性を示す。
論文 参考訳(メタデータ) (2024-05-13T14:24:56Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - MaiBaam: A Multi-Dialectal Bavarian Universal Dependency Treebank [56.810282574817414]
We present the first multi-dialect Bavarian treebank (MaiBaam) based with part-of-speech and syntactic dependency information in Universal Dependencies (UD)。
我々は、近縁なバイエルン語とドイツ語のモルフォシンタクティックな相違を強調し、話者の正書法の豊富な多様性を示す。
私たちのコーパスには15kのトークンが含まれており、3つの国にまたがるバイエルン語を話すすべての地域の方言をカバーしています。
論文 参考訳(メタデータ) (2024-03-15T13:33:10Z) - Morphosyntactic probing of multilingual BERT models [41.83131308999425]
言語モデルにおける形態情報の多言語探索のための広範囲なデータセットを提案する。
トレーニング済みのTransformerモデル (mBERT と XLM-RoBERTa) では,これらのタスク間で高い性能を実現することができる。
論文 参考訳(メタデータ) (2023-06-09T19:15:20Z) - Self-Adaptive Label Augmentation for Semi-supervised Few-shot
Classification [121.63992191386502]
Few-shotの分類は、ラベル付きサンプルがわずかにあれば、新しいタスクをうまく一般化できるモデルを学ぶことを目的としている。
そこで本研究では,手動で定義した指標を用いて,ラベルのない各サンプルに適切なラベルを割り当てる半教師付き小ショット分類手法を提案する。
SALAの目新しいところは、タスク適応計量であり、エンドツーエンドの方法で異なるタスクに対するメトリックを適応的に学習することができる。
論文 参考訳(メタデータ) (2022-06-16T13:14:03Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Genre as Weak Supervision for Cross-lingual Dependency Parsing [18.755176247223616]
ジャンルのラベルは頻繁に入手できるが、言語間の設定ではほとんど探索されていない。
木バンクレベルのジャンル情報をよりきめ細かい文レベルに投影する。
12の低リソース言語ツリーバンク(うち6つはテストのみ)では、ジャンル固有の手法が競争のベースラインを大幅に上回っています。
論文 参考訳(メタデータ) (2021-09-10T08:24:54Z) - Sparsely Factored Neural Machine Translation [3.4376560669160394]
言語情報をニューラルマシン翻訳システムに組み込む標準的なアプローチは、注釈付き特徴ごとに別々の語彙を維持することである。
そこで本研究では,ドメイン外データの大幅な改善と,ドメイン内データに匹敵する品質を示す手法を提案する。
低リソースシナリオの場合、実験はバスク語やドイツ語のような形態素豊かな言語で行われる。
論文 参考訳(メタデータ) (2021-02-17T18:42:00Z) - Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。
実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文 参考訳(メタデータ) (2020-09-12T17:36:53Z) - Universal Dependencies v2: An Evergrowing Multilingual Treebank
Collection [33.86322085911299]
Universal Dependenciesは、多くの言語に対して言語横断的に一貫性のあるツリーバンクアノテーションを作成するためのオープンコミュニティの取り組みである。
ガイドライン(UD v2)のバージョン2を説明し、UD v1からUD v2への大きな変更について論じ、現在90言語で利用可能なツリーバンクについて概説する。
論文 参考訳(メタデータ) (2020-04-22T15:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。