論文の概要: The Paradigm Discovery Problem
- arxiv url: http://arxiv.org/abs/2005.01630v1
- Date: Mon, 4 May 2020 16:38:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 00:56:50.181947
- Title: The Paradigm Discovery Problem
- Title(参考訳): パラダイム発見問題
- Authors: Alexander Erdmann, Micha Elsner, Shijie Wu, Ryan Cotterell and Nizar
Habash
- Abstract要約: 我々は、パラダイム発見問題を定式化し、システム判定のためのメトリクスを開発する。
5つの多言語に対する経験的結果について報告する。
私たちのコードとデータは公開されています。
- 参考スコア(独自算出の注目度): 121.79963594279893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work treats the paradigm discovery problem (PDP), the task of learning
an inflectional morphological system from unannotated sentences. We formalize
the PDP and develop evaluation metrics for judging systems. Using currently
available resources, we construct datasets for the task. We also devise a
heuristic benchmark for the PDP and report empirical results on five diverse
languages. Our benchmark system first makes use of word embeddings and string
similarity to cluster forms by cell and by paradigm. Then, we bootstrap a
neural transducer on top of the clustered data to predict words to realize the
empty paradigm slots. An error analysis of our system suggests clustering by
cell across different inflection classes is the most pressing challenge for
future work. Our code and data are available for public use.
- Abstract(参考訳): 本研究は,無注釈文から屈折形態学を学習する課題であるパラダイム発見問題(PDP)を扱う。
我々はPDPを形式化し、システム評価のための評価指標を開発する。
現在利用可能なリソースを使用して、タスク用のデータセットを構築します。
また、PDPのヒューリスティックなベンチマークを考案し、5つの多言語で実証結果を報告する。
ベンチマークシステムはまず,単語の埋め込みと文字列をセルやパラダイムによってクラスタ形式に類似させる。
次に、クラスタ化されたデータ上にニューラルトランスデューサをブートストラップして単語を予測し、空のパラメタスロットを実現する。
本手法の誤差解析では, セル単位のクラスタリングが, 将来的な課題となることを示唆している。
私たちのコードとデータは公開されています。
関連論文リスト
- DISCERN: Decoding Systematic Errors in Natural Language for Text Classifiers [18.279429202248632]
本稿では,テキスト分類器における系統的バイアスを言語説明を用いて解釈するフレームワークであるdisCERNを紹介する。
DISCERNは、2つの大きな言語モデル間の対話ループを用いて、体系的エラーの正確な自然言語記述を反復的に生成する。
本研究では, クラスタを例に挙げるよりも, 言語説明を通して, 系統的バイアスをより効果的に(25%以上相対的に) 効率的に解釈できることを示す。
論文 参考訳(メタデータ) (2024-10-29T17:04:55Z) - Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Vocabulary-Defined Semantics: Latent Space Clustering for Improving In-Context Learning [32.178931149612644]
コンテキスト内学習により、言語モデルは下流のデータに適応したり、プロンプト内のデモとして少数のサンプルでタスクを組み込むことができる。
しかし、文脈内学習のパフォーマンスは、実演の質、形式、順序によって不安定である可能性がある。
語彙定義意味論(vocabulary-defined semantics)を提案する。
論文 参考訳(メタデータ) (2024-01-29T14:29:48Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Meta-learning Pathologies from Radiology Reports using Variance Aware
Prototypical Networks [3.464871689508835]
本稿では,数ショットのテキスト分類のためのプロトタイプネットワークの簡易拡張を提案する。
我々の主な考えは、クラスプロトタイプをガウスに置き換え、サンプルを適切なクラスセントロイドの近くでクラスタ化することを奨励する正規化項を導入することである。
論文 参考訳(メタデータ) (2022-10-22T05:22:29Z) - Cross-Domain Evaluation of a Deep Learning-Based Type Inference System [0.44098366957385177]
本研究では,最先端のディープラーニング型推論システムとして,Type4Pyについて検討する。
クラス不均衡、語彙外単語、データセットシフト、未知クラスといった問題に対処する。
我々のデータセットは、ソフトウェアプロジェクトの異なる領域における型推論システムの評価を可能にする。
論文 参考訳(メタデータ) (2022-08-19T07:28:31Z) - Vector Representations of Idioms in Conversational Systems [1.6507910904669727]
我々は,2つの課題に対して,潜在的表現(PIE)-英語イディオムコーパスを利用する。
SoTA T5モデルを用いて分類作業において,98%のマクロF1スコアの最先端(SoTA)を達成した。
その結果、イディオムコーパスで訓練されたモデルは、イディオム71.9%を含むプロンプトに対してより適合した反応を生じさせることがわかった。
論文 参考訳(メタデータ) (2022-05-07T14:50:05Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。