論文の概要: Out-of-Domain Evaluation of Finnish Dependency Parsing
- arxiv url: http://arxiv.org/abs/2204.10621v1
- Date: Fri, 22 Apr 2022 10:34:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 18:45:09.680366
- Title: Out-of-Domain Evaluation of Finnish Dependency Parsing
- Title(参考訳): フィンランド依存構文解析のドメイン外評価
- Authors: Jenna Kanerva and Filip Ginter
- Abstract要約: 多くの実世界のアプリケーションでは、モデルが適用されるデータはトレーニングデータの特徴と大きく異なる場合がある。
本稿では,フィンランドのアウト・オブ・ドメイン解析に焦点をあて,新しいUDフィンランド語アウト・オブ・ドメインツリーバンクを導入する。
本稿では,3つのUDツリーバンクから利用可能なセクションレベル情報を利用した領域外評価について述べる。
- 参考スコア(独自算出の注目度): 0.8957681069740162
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The prevailing practice in the academia is to evaluate the model performance
on in-domain evaluation data typically set aside from the training corpus.
However, in many real world applications the data on which the model is applied
may very substantially differ from the characteristics of the training data. In
this paper, we focus on Finnish out-of-domain parsing by introducing a novel UD
Finnish-OOD out-of-domain treebank including five very distinct data sources
(web documents, clinical, online discussions, tweets, and poetry), and a total
of 19,382 syntactic words in 2,122 sentences released under the Universal
Dependencies framework. Together with the new treebank, we present extensive
out-of-domain parsing evaluation utilizing the available section-level
information from three different Finnish UD treebanks (TDT, PUD, OOD). Compared
to the previously existing treebanks, the new Finnish-OOD is shown include
sections more challenging for the general parser, creating an interesting
evaluation setting and yielding valuable information for those applying the
parser outside of its training domain.
- Abstract(参考訳): 学界における一般的な実践は、トレーニングコーパスとは別に設定されるドメイン内評価データのモデルパフォーマンスを評価することである。
しかし、多くの実世界のアプリケーションでは、モデルが適用されるデータとトレーニングデータの特徴とは大きく異なる場合がある。
本稿では,5つの非常に異なるデータソース(web文書,臨床資料,オンライン議論,つぶやき,詩)と,universal dependencies frameworkの下でリリースされた2,122文中の19,382の構文語を含む,新たなudフィンランド・オード・アウトオブ・ドメイン・ツリーバンクを導入することにより,フィンランド語外の構文解析に注目する。
新しいツリーバンクとともに、フィンランドの3つのUDツリーバンク(TDT, PUD, OOD)から利用可能なセクションレベル情報を利用して、ドメイン外解析評価を行う。
既存のツリーバンクと比較すると、新しいフィンランド-oodには一般的なパーサにとってより困難なセクションが含まれており、興味深い評価設定を作成し、トレーニングドメイン外でパーサを適用する人たちに貴重な情報を提供する。
関連論文リスト
- Thai Universal Dependency Treebank [0.0]
我々は,3,627本の木からなるタイ国最大のツリーバンクであるタイ・ユニバーサル・依存性ツリーバンク(TUD)について,UD(Universal Dependency)フレームワークに従って紹介する。
次に、事前学習したエンコーダを組み込んだ依存性解析モデルをベンチマークし、タイのPUDとTUDでトレーニングする。
その結果、我々のモデルのほとんどは、以前の論文で報告された他のモデルよりも優れており、タイの依存するコンポーネントの最適な選択についての洞察を提供することができることがわかった。
論文 参考訳(メタデータ) (2024-05-13T09:48:13Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - BLUEX: A benchmark based on Brazilian Leading Universities Entrance
eXams [4.9069311006119865]
ブラジルの2大大学(UNI CAMPとUSP)の入学試験のデータセットであるBLUEXを紹介する。
データセットには、さまざまな主題におけるNLPモデルの性能を評価するための注釈付きメタデータが含まれている。
我々は、最先端のLMを用いた実験を通じて、ポルトガル語の自然言語理解と推論の最先端化の可能性を実証するベンチマークを構築した。
論文 参考訳(メタデータ) (2023-07-11T16:25:09Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Why Can't Discourse Parsing Generalize? A Thorough Investigation of the
Impact of Data Diversity [10.609715843964263]
標準的な英語ニュースワイヤベンチマークでトレーニングされた最先端アーキテクチャは、十分に一般化されていないことを示す。
学習データにおけるジャンルの多様性の影響を定量化し,テキストタイプへの一般化を実現する。
本研究は,全木におけるクロスコーパスRTT解析の一般化性を評価する最初の試みである。
論文 参考訳(メタデータ) (2023-02-13T16:11:58Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - Likelihood Ratios and Generative Classifiers for Unsupervised
Out-of-Domain Detection In Task Oriented Dialog [24.653367921046442]
タスクベース対話システムに対する自然言語文入力のためのOOD検出に着目する。
公開データセットの4K OODサンプルのデータセットをSchusterらからリリースしています。
論文 参考訳(メタデータ) (2019-12-30T03:31:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。