Fugu-MT 論文翻訳(概要): Informal Persian Universal Dependency Treebank

論文の概要: Informal Persian Universal Dependency Treebank

arxiv url: http://arxiv.org/abs/2201.03679v1
Date: Mon, 10 Jan 2022 22:33:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-12 20:21:26.160301
Title: Informal Persian Universal Dependency Treebank
Title（参考訳）: 非公式なペルシャの普遍依存ツリーバンク
Authors: Roya Kabiri, Simin Karimi, Mihai Surdeanu
Abstract要約: 本稿では,フォーマルペルシャとフォーマルペルシャの音韻学的・形態学的・統語的区別について述べる。我々は,Universal Dependencyスキームにアノテートされた新しいツリーバンクであるInformal Persian Universal Dependency Treebankを開発した。
参考スコア（独自算出の注目度）: 19.359203472636835
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents the phonological, morphological, and syntactic distinctions between formal and informal Persian, showing that these two variants have fundamental differences that cannot be attributed solely to pronunciation discrepancies. Given that informal Persian exhibits particular characteristics, any computational model trained on formal Persian is unlikely to transfer well to informal Persian, necessitating the creation of dedicated treebanks for this variety. We thus detail the development of the open-source Informal Persian Universal Dependency Treebank, a new treebank annotated within the Universal Dependencies scheme. We then investigate the parsing of informal Persian by training two dependency parsers on existing formal treebanks and evaluating them on out-of-domain data, i.e. the development set of our informal treebank. Our results show that parsers experience a substantial performance drop when we move across the two domains, as they face more unknown tokens and structures and fail to generalize well. Furthermore, the dependency relations whose performance deteriorates the most represent the unique properties of the informal variant. The ultimate goal of this study that demonstrates a broader impact is to provide a stepping-stone to reveal the significance of informal variants of languages, which have been widely overlooked in natural language processing tools across languages.
Abstract（参考訳）: 本稿では,形式的ペルシャ語と形式的ペルシャ語の音韻的,形態的,統語論的区別について述べる。非公式なペルシャ語が特定の特徴を示すことを考えると、公式なペルシャ語で訓練された計算モデルは、非公式なペルシャ語にうまく移行することはありそうにない。そこで我々は,Universal Dependenciesスキームにアノテートされた新しいツリーバンクであるInformal Persian Universal Dependency Treebankの開発について詳述する。次に,2つの係り受けパーサを既存の形式ツリーバンクにトレーニングし,ドメイン外データ,すなわち非公式ツリーバンクの開発セット上で評価することで,非公式ペルシャの構文解析について検討した。以上の結果から,より未知のトークンや構造に直面するため,パーサは2つの領域を移動すると大幅な性能低下を経験することがわかった。さらに、性能が劣化する依存性関係は、非公式な変種の特徴を最も表している。この研究の最終的な目標は、言語全体にわたる自然言語処理ツールで広く見過ごされてきた非公式な変種言語の重要性を明らかにするための足掛かりを提供することである。

関連論文リスト

A Computational Approach to Language Contact -- A Case Study of Persian [0.4740962650068887]
我々は,ペルシア語との接触の程度や種類が異なる言語に接する場合に,ペルシア語で訓練されたモデルの表現を探索する。本手法は,中間表現に符号化された言語情報の量を定量化し,モデルコンポーネント間でどのように分散されているかを評価する。その結果、普遍的な構文情報は歴史的接触に大きく依存せず、ケースやジェンダーのような形態的特徴は言語固有の構造によって強く形成されていることが明らかとなった。
論文参考訳（メタデータ） (2026-01-28T13:27:00Z)
Modern Uyghur Dependency Treebank (MUDT): An Integrated Morphosyntactic Framework for a Low-Resource Language [0.0]
本研究では、既存のツリーバンクの制限を克服するために設計された依存性アノテーションフレームワークを紹介する。現代のUyghur Dependency Treebank (MUDT)はより正確でセマンティックに透過的な表現を提供する。
論文参考訳（メタデータ） (2025-07-29T07:02:04Z)
Bridging the Gap: An Intermediate Language for Enhanced and Cost-Effective Grapheme-to-Phoneme Conversion with Homographs with Multiple Pronunciations Disambiguation [0.0]
本稿ではペルシャ語処理に特化して設計された中間言語を紹介する。提案手法は,Large Language Model (LLM) のプロンプト技術と,特殊なシーケンス・ツー・シーケンス・マシン・トランスリテラルアーキテクチャの2つの重要なコンポーネントを組み合わせたものである。
論文参考訳（メタデータ） (2025-05-10T11:10:48Z)
Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases [47.920937001420505]
形式言語上での言語モデルの事前学習は、自然言語の獲得を改善することができるが、どの特徴が帰納的バイアスを与えるかは明らかではない。これら2つの特性を持つ形式言語は、自然言語の損失を減らし、他の言語と比較して言語一般化を良くする。
論文参考訳（メタデータ） (2025-02-26T15:55:55Z)
Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文参考訳（メタデータ） (2024-10-22T09:25:21Z)
MaiBaam: A Multi-Dialectal Bavarian Universal Dependency Treebank [56.810282574817414]
We present the first multi-dialect Bavarian treebank (MaiBaam) based with part-of-speech and syntactic dependency information in Universal Dependencies (UD)。我々は、近縁なバイエルン語とドイツ語のモルフォシンタクティックな相違を強調し、話者の正書法の豊富な多様性を示す。私たちのコーパスには15kのトークンが含まれており、3つの国にまたがるバイエルン語を話すすべての地域の方言をカバーしています。
論文参考訳（メタデータ） (2024-03-15T13:33:10Z)
Principal Component Analysis as a Sanity Check for Bayesian Phylolinguistic Reconstruction [3.652806821280741]
ツリーモデルは、言語は共通の祖先の子孫であり、時間とともに修正されたと仮定する。この仮定は接触やその他の要因によって異なる範囲で破ることができる。本稿では,主成分分析によって生成された空間に再構成木を投影する,簡易な正当性チェックを提案する。
論文参考訳（メタデータ） (2024-02-29T05:47:34Z)
Retrieval-based Disentangled Representation Learning with Natural Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文参考訳（メタデータ） (2022-12-15T10:20:42Z)
Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文参考訳（メタデータ） (2022-10-14T02:35:19Z)
LyS_ACoru\~na at SemEval-2022 Task 10: Repurposing Off-the-Shelf Tools for Sentiment Analysis as Semantic Dependency Parsing [10.355938901584567]
本稿では,バイファイン・セマンティック・依存性を用いた構造化感情分析の課題に対処する。 i)1つのツリーバンクでのトレーニング、(ii)異なる言語から来るツリーバンクのトレーニングによってセットアップを緩和する。 i) 他の言語で利用可能なツリーバンクを単語レベルで翻訳して、騒々しく、文法的にも、注釈付きのデータを得る。評価後の段階では、英語のすべてのツリーを単純にマージする言語間モデルも訓練した。
論文参考訳（メタデータ） (2022-04-27T10:21:28Z)
A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文参考訳（メタデータ） (2022-01-20T15:01:12Z)
The Persian Dependency Treebank Made Universal [3.4410212782758047]
このツリーバンクには29107の文がある。我々のデータは、ペルシアのユニバーサル依存ツリーバンク(Seraji et al., 2016)よりもユニバーサル依存と互換性がある。我々のデレシカル化されたペルシア語から英語への移動実験は、データに基づいてトレーニングされた解析モデルは、Serajiらより2%精度が高いことを示している。
論文参考訳（メタデータ） (2020-09-21T22:34:13Z)
I3rab: A New Arabic Dependency Treebank Based on Arabic Grammatical Theory [0.0]
本稿では,従来のアラビア語文法理論とアラビア語の特徴に基づいて,新たなアラビア語依存ツリーバンクを構築することを目的とする。提案されたアラビア語依存ツリーバンクはI3rabと呼ばれ、2つの主要な概念で既存のアラビア語依存ツリーバンクとは対照的である。
論文参考訳（メタデータ） (2020-07-11T13:34:44Z)
Discrete Variational Attention Models for Language Generation [51.88612022940496]
本稿では,言語における離散性に起因する注意機構のカテゴリー分布を考慮した離散的変動注意モデルを提案する。離散性の特質により,提案手法の訓練は後部崩壊に支障を来さない。
論文参考訳（メタデータ） (2020-04-21T05:49:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。