論文の概要: Co-training an Unsupervised Constituency Parser with Weak Supervision
- arxiv url: http://arxiv.org/abs/2110.02283v1
- Date: Tue, 5 Oct 2021 18:45:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:47:03.884018
- Title: Co-training an Unsupervised Constituency Parser with Weak Supervision
- Title(参考訳): 弱い監督をもつ教師なし構成パーサの共学習
- Authors: Nickil Maveli and Shay B. Cohen
- Abstract要約: 本稿では,あるノードが文中の特定のスパンを支配しているかどうかを識別するために,ブートストラップ分類器に依存する教師なし解析手法を提案する。
両者の相互作用が両者の精度の向上に役立ち、その結果、効果的に解析できることが示される。
- 参考スコア(独自算出の注目度): 33.63314110665062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a method for unsupervised parsing that relies on bootstrapping
classifiers to identify if a node dominates a specific span in a sentence.
There are two types of classifiers, an inside classifier that acts on a span,
and an outside classifier that acts on everything outside of a given span.
Through self-training and co-training with the two classifiers, we show that
the interplay between them helps improve the accuracy of both, and as a result,
effectively parse. A seed bootstrapping technique prepares the data to train
these classifiers. Our analyses further validate that such an approach in
conjunction with weak supervision using prior branching knowledge of a known
language (left/right-branching) and minimal heuristics injects strong inductive
bias into the parser, achieving 63.1 F$_1$ on the English (PTB) test set. In
addition, we show the effectiveness of our architecture by evaluating on
treebanks for Chinese (CTB) and Japanese (KTB) and achieve new state-of-the-art
results.\footnote{For code or data, please contact the authors.}
- Abstract(参考訳): 文中の特定のスパンを支配しているノードを識別するために,ブートストラップ分類器に依存する教師なし解析手法を提案する。
分類器には2つのタイプがあり、内部分類器はスパン上で動作し、外部分類器は所定のスパン以外のあらゆるものに作用する。
自己学習と2つの分類器との協調学習を通じて,両者の相互作用が両者の正確性の向上に寄与することを示す。
シードブートストラップ技術は、これらの分類器を訓練するデータを準備する。
さらに、既知の言語(左/右ブランチ)の事前分岐知識と最小ヒューリスティックスを用いて、そのようなアプローチが、パーサーに強い帰納バイアスを注入し、英語(PTB)テストセットで63.1F$_1$に達することを検証した。
さらに,中国 (CTB) と日本 (KTB) のツリーバンクを評価し, 新たな最先端の成果を得ることにより, アーキテクチャの有効性を示す。
コードまたはデータについては、著者に連絡してください。
}
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Unsupervised Chunking with Hierarchical RNN [62.15060807493364]
本稿では,非階層的手法で単語をグループ化する構文的タスクであるチャンキングに対する教師なしアプローチを紹介する。
本稿では,単語-チャンク・チャンク-文合成をモデル化した2層階層型階層型リカレントニューラルネットワーク(HRNN)を提案する。
CoNLL-2000データセットの実験では、既存の教師なし手法よりも顕著な改善が見られ、フレーズF1スコアが最大6ポイント向上した。
論文 参考訳(メタデータ) (2023-09-10T02:55:12Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - Class Token and Knowledge Distillation for Multi-head Self-Attention
Speaker Verification Systems [20.55054374525828]
本稿では,ディープニューラルネットワーク(DNN)に基づく話者検証システムの性能向上のための3つの新しいアプローチについて検討する。
まず,クラストークンと呼ばれる学習可能なベクトルを用いて,平均的なグローバルプール機構を置換し,埋め込みを抽出する手法を提案する。
第2に,KD(Knowledge Distillation)哲学を用いて教師と学生のペアのネットワークを訓練するための蒸留表現トークンを追加した。
論文 参考訳(メタデータ) (2021-11-06T09:47:05Z) - DocSCAN: Unsupervised Text Classification via Learning from Neighbors [2.2082422928825145]
Semantic Clustering by Adopting Nearest-Neighbors (SCAN)を用いた、完全に教師なしのテキスト分類アプローチであるDocSCANを紹介します。
各文書に対して,大規模事前学習言語モデルから意味情報ベクトルを得る。
類似の文書には近接ベクトルがあるので、表現空間の隣人はトピックラベルを共有する傾向がある。
学習可能なクラスタリングアプローチでは、隣接するデータポイントのペアを弱い学習信号として使用します。
提案されたアプローチは、グラウンドトラスラベルなしでデータセット全体にクラスを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2021-05-09T21:20:31Z) - Binary Classification from Multiple Unlabeled Datasets via Surrogate Set
Classification [94.55805516167369]
我々は m 個の U 集合を $mge2$ で二進分類する新しい手法を提案する。
我々のキーとなる考え方は、サロゲート集合分類(SSC)と呼ばれる補助的分類タスクを考えることである。
論文 参考訳(メタデータ) (2021-02-01T07:36:38Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。