論文の概要: Syntactically Robust Training on Partially-Observed Data for Open
Information Extraction
- arxiv url: http://arxiv.org/abs/2301.06841v1
- Date: Tue, 17 Jan 2023 12:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 14:20:34.220976
- Title: Syntactically Robust Training on Partially-Observed Data for Open
Information Extraction
- Title(参考訳): オープン情報抽出のための部分観測データの統語的ロバスト学習
- Authors: Ji Qi, Yuxiang Chen, Lei Hou, Juanzi Li, Bin Xu
- Abstract要約: オープン情報抽出モデルは十分な監督力を持った有望な結果を示している。
そこで本研究では,統語論的に頑健な学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.59133746149343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open Information Extraction models have shown promising results with
sufficient supervision. However, these models face a fundamental challenge that
the syntactic distribution of training data is partially observable in
comparison to the real world. In this paper, we propose a syntactically robust
training framework that enables models to be trained on a syntactic-abundant
distribution based on diverse paraphrase generation. To tackle the intrinsic
problem of knowledge deformation of paraphrasing, two algorithms based on
semantic similarity matching and syntactic tree walking are used to restore the
expressionally transformed knowledge. The training framework can be generally
applied to other syntactic partial observable domains. Based on the proposed
framework, we build a new evaluation set called CaRB-AutoPara, a syntactically
diverse dataset consistent with the real-world setting for validating the
robustness of the models. Experiments including a thorough analysis show that
the performance of the model degrades with the increase of the difference in
syntactic distribution, while our framework gives a robust boundary. The source
code is publicly available at https://github.com/qijimrc/RobustOIE.
- Abstract(参考訳): オープン情報抽出モデルは十分な監督の下で有望な結果を示している。
しかし、これらのモデルは、トレーニングデータの構文分布が現実世界と比較して部分的に観測可能であるという根本的な課題に直面している。
本稿では,多種多様なパラファーゼ生成に基づく統語的冗長分布上でモデルを訓練できる統語的ロバストなトレーニングフレームワークを提案する。
パラフラージングの知識変形に関する本質的な問題に取り組むために、意味的類似性マッチングと構文木ウォーキングに基づく2つのアルゴリズムを用いて表現変換された知識を復元する。
トレーニングフレームワークは一般に、他の構文的な部分観測可能なドメインに適用することができる。
提案フレームワークをベースとして,モデルのロバスト性を検証するための実世界の設定と一致した,構文的に多様なデータセットであるCaRB-AutoParaという新たな評価セットを構築した。
網羅的な分析を含む実験により, モデルの性能は, 構文分布の違いの増加に伴って低下し, フレームワークは堅牢な境界を与えることがわかった。
ソースコードはhttps://github.com/qijimrc/RobustOIEで公開されている。
関連論文リスト
- Analyzing Persuasive Strategies in Meme Texts: A Fusion of Language Models with Paraphrase Enrichment [0.23020018305241333]
本稿では,ミームテキストにおける説得手法の階層的マルチラベル検出へのアプローチについて述べる。
本研究の範囲は、革新的なトレーニング技術とデータ強化戦略を通じて、モデルパフォーマンスの向上を含む。
論文 参考訳(メタデータ) (2024-07-01T20:25:20Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Enhancing Text Generation with Cooperative Training [23.971227375706327]
ほとんどの一般的な方法は、別々に生成的および差別的なモデルを訓練し、互いに変化に適応できなかった。
本稿では,識別器とジェネレータをクローズドループで協調的に学習するテキスト分野におけるテキスト自己一貫性学習フレームワークを提案する。
我々のフレームワークは、モード崩壊や非収束といったトレーニングの不安定さを軽減することができる。
論文 参考訳(メタデータ) (2023-03-16T04:21:19Z) - Distributional Depth-Based Estimation of Object Articulation Models [21.046351215949525]
本研究では,奥行き画像から直接,調音モデルパラメータの分布を効率よく学習する手法を提案する。
私たちのコアコントリビューションには、剛体変換に対する分布の新しい表現が含まれています。
本稿では,カテゴリに依存しない調音モデル推定を行う新しい深層学習手法DUST-netを提案する。
論文 参考訳(メタデータ) (2021-08-12T17:44:51Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z) - Multi-Fact Correction in Abstractive Text Summarization [98.27031108197944]
Span-Factは、質問応答モデルから学んだ知識を活用して、スパン選択によるシステム生成サマリーの補正を行う2つの事実補正モデルのスイートである。
我々のモデルは、ソースコードのセマンティック一貫性を確保するために、反復的または自動回帰的にエンティティを置き換えるために、シングルまたはマルチマスキング戦略を採用している。
実験の結果,自動測定と人的評価の両面において,要約品質を犠牲にすることなく,システム生成要約の事実整合性を大幅に向上させることができた。
論文 参考訳(メタデータ) (2020-10-06T02:51:02Z) - Improving Learning Effectiveness For Object Detection and Classification
in Cluttered Backgrounds [6.729108277517129]
本稿では,異種乱雑な背景の学習データセットを自律的に生成するフレームワークを開発する。
提案するフレームワークの学習効率は,複雑で異種な環境で改善されるべきである。
提案フレームワークの性能を実証実験により検討し,COCOデータセットを用いてトレーニングしたモデルと比較した。
論文 参考訳(メタデータ) (2020-02-27T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。