論文の概要: Semisupervised Neural Proto-Language Reconstruction
- arxiv url: http://arxiv.org/abs/2406.05930v2
- Date: Mon, 12 Aug 2024 15:10:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 21:03:04.682394
- Title: Semisupervised Neural Proto-Language Reconstruction
- Title(参考訳): 半教師付きニューラルプロトランゲージ再構成
- Authors: Liang Lu, Peirong Xie, David R. Mortensen,
- Abstract要約: 本稿では,少量のラベル付きデータに基づいてモデルを訓練する半教師付き歴史復元タスクを提案する。
このアーキテクチャは、未ラベルのコグネート集合を利用して、この新しいタスクにおいて強い半教師付きベースラインを達成できることが示される。
- 参考スコア(独自算出の注目度): 11.105362395278142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing work implementing comparative reconstruction of ancestral languages (proto-languages) has usually required full supervision. However, historical reconstruction models are only of practical value if they can be trained with a limited amount of labeled data. We propose a semisupervised historical reconstruction task in which the model is trained on only a small amount of labeled data (cognate sets with proto-forms) and a large amount of unlabeled data (cognate sets without proto-forms). We propose a neural architecture for comparative reconstruction (DPD-BiReconstructor) incorporating an essential insight from linguists' comparative method: that reconstructed words should not only be reconstructable from their daughter words, but also deterministically transformable back into their daughter words. We show that this architecture is able to leverage unlabeled cognate sets to outperform strong semisupervised baselines on this novel task.
- Abstract(参考訳): 祖先言語(原語)の比較再構成を行う既存の作業は通常、完全な監督を必要とする。
しかし、ラベル付きデータの限られた量でトレーニングできる場合、歴史的復元モデルは実用的価値しか持たない。
本稿では,少数のラベル付きデータ(プロトフォーム付きコガネート集合)と大量のラベル付きデータ(プロトフォームなしコガネート集合)に基づいて,モデルを訓練する半教師付き歴史復元タスクを提案する。
本稿では, 比較再構成のためのニューラルアーキテクチャ (DPD-BiReconstructor) を提案し, 言語学者の比較手法から重要な知見を取り入れ, 再構成された単語は, 娘の単語から再構成可能であるだけでなく, 決定論的に娘の単語に変換可能であることを提案する。
このアーキテクチャは、未ラベルのコグネート集合を利用して、この新しいタスクにおいて強い半教師付きベースラインを達成できることが示される。
関連論文リスト
- Improved Neural Protoform Reconstruction via Reflex Prediction [11.105362395278142]
我々は、プロトフォームはコグネート集合(関連する反射の集合)から推論可能であるだけでなく、プロトフォームからも推論可能であるべきだと主張する。
本稿では,リフレクション予測モデルを用いて,再構成モデルから候補となるプロトフォームをリランクするシステムを提案する。
論文 参考訳(メタデータ) (2024-03-27T17:13:38Z) - Representing and Computing Uncertainty in Phonological Reconstruction [5.284425534494986]
歴史的言語学では本質的にファジィな再現性にもかかわらず、多くの学者は原型の提案において不確かさを表現していない。
本稿では,言語再建における不確実性の表現を可能にする新しい枠組みを提案するとともに,言語データからファジィ再構成を計算するためのワークフローも提供する。
論文 参考訳(メタデータ) (2023-10-19T13:27:42Z) - Contextualising Implicit Representations for Semantic Tasks [5.453372578880444]
以前の研究では、リコンストラクションタスクにのみ訓練された暗黙の表現が、一般的に意味的なタスクには役に立たないエンコーディングを生成することが示されている。
本稿では,暗黙表現のエンコーディングを文脈化して,下流タスクで使用できるようにする手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T17:59:58Z) - Understanding Reconstruction Attacks with the Neural Tangent Kernel and
Dataset Distillation [110.61853418925219]
我々は、データセット再構築攻撃のより強力なバージョンを構築し、無限の幅で設定されたエンペントリアルトレーニングを確実に回復する方法を示す。
理論的にも経験的にも再構成された画像は、データセットの「外部」に傾向を示す。
これらのリコンストラクション攻撃は, テクストデータセット蒸留において, 再構成画像上で再トレーニングを行い, 高い予測精度を得ることができる。
論文 参考訳(メタデータ) (2023-02-02T21:41:59Z) - Neural Unsupervised Reconstruction of Protolanguage Word Forms [34.66200889614538]
古語形態の教師なし再構成に対する最先端のニューラルアプローチを提案する。
我々はこの研究を、より複雑な音韻学的および形態学的変化を捉えることができるニューラルモデルで拡張する。
論文 参考訳(メタデータ) (2022-11-16T05:38:51Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - Generative or Contrastive? Phrase Reconstruction for Better Sentence
Representation Learning [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分強力な文表現をもたらし、コントラスト学習と同等の文文類似性タスクで性能を達成することができる。
論文 参考訳(メタデータ) (2022-04-20T10:00:46Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z) - Do sequence-to-sequence VAEs learn global features of sentences? [13.43800646539014]
本研究では,列列列構造を用いた自然言語用可変国語オートエンコーダ(VAE)について検討する。
VAEは最初の単語と文章の長さを記憶する傾向があり、限られた有用性を持つ局所的な特徴を生み出す。
これらの変種はよりグローバルな潜在変数、すなわちトピックや感情ラベルをより予測的に学習する。
論文 参考訳(メタデータ) (2020-04-16T14:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。