論文の概要: Morphological Reinflection with Multiple Arguments: An Extended
Annotation schema and a Georgian Case Study
- arxiv url: http://arxiv.org/abs/2203.08527v1
- Date: Wed, 16 Mar 2022 10:47:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 14:54:25.618753
- Title: Morphological Reinflection with Multiple Arguments: An Extended
Annotation schema and a Georgian Case Study
- Title(参考訳): 複数の引数による形態学的再帰:拡張アノテーションスキーマとグルジアのケーススタディ
- Authors: David Guriel, Omer Goldman, Reut Tsarfaty
- Abstract要約: 我々はUniMorphの形態的データセットを拡張し、真の接尾辞を用いて複数の引数に一致する動詞をカバーする。
データセットは、既存のUniMorphデータセットの4倍のテーブルと6倍の動詞形式を持つ。
このベンチマークのカバレッジ、一貫性、解釈性を改善することが期待されている。
- 参考スコア(独自算出の注目度): 7.245355976804435
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years, a flurry of morphological datasets had emerged, most notably
UniMorph, a multi-lingual repository of inflection tables. However, the flat
structure of the current morphological annotation schemas makes the treatment
of some languages quirky, if not impossible, specifically in cases of
polypersonal agreement. In this paper we propose a general solution for such
cases and expand the UniMorph annotation schema to naturally address this
phenomenon, in which verbs agree with multiple arguments using true affixes. We
apply this extended schema to one such language, Georgian, and provide a
human-verified, accurate and balanced morphological dataset for Georgian verbs.
The dataset has 4 times more tables and 6 times more verb forms compared to the
existing UniMorph dataset, covering all possible variants of argument marking,
demonstrating the adequacy of our proposed scheme. Experiments with a standard
reinflection model show that generalization is easy when the data is split at
the form level, but extremely hard when splitting along lemma lines. Expanding
the other languages in UniMorph to this schema is expected to improve both the
coverage, consistency and interpretability of this benchmark.
- Abstract(参考訳): 近年では、インフレクションテーブルの多言語リポジトリであるUniMorphなど、多くの形態的データセットが出現している。
しかし、現在の形態的アノテーションスキーマの平坦な構造は、いくつかの言語の扱いを、不可能ではないとしても、特に多対人合意の場合、不公平にする。
本稿では,このようなケースに対する一般的な解を提案し,UniMorphアノテーションスキーマを拡張して自然にこの現象に対処する。
この拡張スキーマをジョージア語の1つの言語に適用し、グルジア語の動詞に対する人間の検証、正確、バランスの取れた形態的データセットを提供する。
このデータセットは既存のUniMorphデータセットの4倍のテーブルと6倍の動詞形式を持ち、引数マーキングの可能なバリエーションをすべてカバーし、提案手法の妥当性を実証している。
標準再帰モデルによる実験では、データが形式レベルで分割された場合の一般化は容易であるが、補題線に沿って分割する場合は極めて困難である。
他の言語をこのスキーマにユニモルフィックに拡張することで、このベンチマークのカバレッジ、一貫性、解釈性が向上することが期待される。
関連論文リスト
- Improving Generalization in Semantic Parsing by Increasing Natural
Language Variation [67.13483734810852]
本研究では,テキスト間セマンティック解析の堅牢性を高めるためにデータ拡張を利用する。
私たちは、より現実的で多様な質問を生成するために、大きな言語モデルの能力を活用しています。
いくつかのプロンプトを使って、スパイダー内の質問の数を2倍に増やすことができる。
論文 参考訳(メタデータ) (2024-02-13T18:48:23Z) - Morphosyntactic probing of multilingual BERT models [41.83131308999425]
言語モデルにおける形態情報の多言語探索のための広範囲なデータセットを提案する。
トレーニング済みのTransformerモデル (mBERT と XLM-RoBERTa) では,これらのタスク間で高い性能を実現することができる。
論文 参考訳(メタデータ) (2023-06-09T19:15:20Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - UniMorph 4.0: Universal Morphology [104.69846084893298]
本稿は,過去2年間のいくつかの前線における展開と改善について述べる。
多くの言語学者による共同作業により、30の絶滅危惧言語を含む67の新しい言語が追加された。
前回のUniMorphリリースに合わせて,16言語で形態素セグメンテーションを施したデータベースも拡張した。
論文 参考訳(メタデータ) (2022-05-07T09:19:02Z) - Compositional Temporal Grounding with Structured Variational Cross-Graph
Correspondence Learning [92.07643510310766]
ビデオの時間的接地は、あるクエリ文に意味的に対応する1つのターゲットビデオセグメントをローカライズすることを目的としている。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
出現した単語の新たな組み合わせによるクエリの一般化に失敗したことを実証的に見出した。
本稿では,ビデオと言語を複数の階層構造に明示的に分解する多変分グラフ推論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-24T12:55:23Z) - Morphology Without Borders: Clause-Level Morphological Annotation [8.559428282730021]
形態学を単語レベルではなく節レベルの現象と考えることを提案する。
我々は,英語,ドイツ語,トルコ語,ヘブライ語という4つの類型的に異なる言語を対象として,節レベルの形態に関する新しいデータセットを提供する。
実験の結果,節レベルタスクは各単語レベルタスクよりも格段に難しいが,言語間では同等に複雑であることがわかった。
論文 参考訳(メタデータ) (2022-02-25T17:20:28Z) - Grounded Graph Decoding Improves Compositional Generalization in
Question Answering [68.72605660152101]
質問応答モデルは、長いシーケンスやより複雑なテスト構造のようなトレーニングパターンの新しい構成に一般化するのに苦労する。
構造化された予測をアテンション機構でグラウンド化することで,言語表現の合成一般化を改善する手法であるグラウンドドグラフデコーディングを提案する。
本モデルは,質問応答における合成一般化の挑戦的ベンチマークである構成自由ベース質問(CFQ)データセットにおいて,最先端のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2021-11-05T17:50:14Z) - Minimal Supervision for Morphological Inflection [8.532288965425805]
ラベル付きデータのブートストラップは,5つのラベル付きパラダイムに過ぎず,大量のラベル付きテキストが添付されています。
本手法は, 形態素系における2相配置の異なる規則性を利用する。
本研究では,8言語にまたがるParadigm Cell Filling Problemを試行し,比較的単純な形態を持つ言語では,その直交正則性によって優雅な精度が得られることを示した。
論文 参考訳(メタデータ) (2021-04-17T11:07:36Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。