論文の概要: Mind the Labels: Describing Relations in Knowledge Graphs With
Pretrained Models
- arxiv url: http://arxiv.org/abs/2210.07373v1
- Date: Thu, 13 Oct 2022 21:38:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 16:16:37.970808
- Title: Mind the Labels: Describing Relations in Knowledge Graphs With
Pretrained Models
- Title(参考訳): Mind the Labels: 事前訓練されたモデルと知識グラフの関連性を記述する
- Authors: Zden\v{e}k Kasner, Ioannis Konstas, Ond\v{r}ej Du\v{s}ek
- Abstract要約: 我々は3つの大規模知識グラフから1,522個のユニークな関係の多種多様な集合を言語化するために,新しいデータセットを使用する。
D2T 生成のための PLM は未知のケースで失敗すると予想されるが、多種多様な関係ラベルで訓練されたモデルは、新規で目に見えない関係において驚くほど堅牢である。
- 参考スコア(独自算出の注目度): 14.514428475032062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models (PLMs) for data-to-text (D2T) generation can use
human-readable data labels such as column headings, keys, or relation names to
generalize to out-of-domain examples. However, the models are well-known in
producing semantically inaccurate outputs if these labels are ambiguous or
incomplete, which is often the case in D2T datasets. In this paper, we expose
this issue on the task of descibing a relation between two entities. For our
experiments, we collect a novel dataset for verbalizing a diverse set of 1,522
unique relations from three large-scale knowledge graphs (Wikidata, DBPedia,
YAGO). We find that although PLMs for D2T generation expectedly fail on unclear
cases, models trained with a large variety of relation labels are surprisingly
robust in verbalizing novel, unseen relations. We argue that using data with a
diverse set of clear and meaningful labels is key to training D2T generation
systems capable of generalizing to novel domains.
- Abstract(参考訳): データ・トゥ・テキスト(D2T)生成のための事前訓練された言語モデル(PLM)は、列の見出し、キー、関係名などの人間が読めるデータラベルを使用して、ドメイン外の例に一般化することができる。
しかし、これらのラベルが曖昧であるか不完全である場合、意味的に不正確な出力を生成することはよく知られており、これはD2Tデータセットでよく見られる。
本稿では,2つの実体間の関係を解明する作業において,この問題を明らかにする。
本研究では,3つの大規模知識グラフ(Wikidata,DBPedia,YAGO)から,多種多様な1,522個の一意関係を言語化するための新しいデータセットを収集した。
D2T 生成のための PLM は未知のケースで失敗すると予想されるが、多種多様な関係ラベルで訓練されたモデルは、新規で目に見えない関係において驚くほど堅牢である。
我々は,新しいドメインに一般化可能なD2T生成システムを訓練する上で,多種多様な明確なラベルを持つデータを使用することが重要であると主張している。
関連論文リスト
- AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Learning from Multiple Sources for Data-to-Text and Text-to-Data [16.080265665849527]
Data-to-text (D2T) と text-to-data (T2D) は、グラフやテーブルなどの構造化されたデータを流用なテキストに変換する2つのタスクである。
現在のシステムは、D2TやT2Dタスクに微調整された事前訓練された言語モデルを利用している。
このアプローチには2つの主な制限がある。ひとつは、タスクとソース毎に個別のシステムを調整する必要があること、もうひとつは、利用可能なコーパスの不足によって学習が制限されることだ。
変形型自動エンコーダモデルを導入し,その多様性を表現できるように,アンタングル型とコンテンツ変数を交互に構成する。
論文 参考訳(メタデータ) (2023-02-22T10:39:33Z) - Domain-Specific NER via Retrieving Correlated Samples [37.98414661072985]
本稿では,NERモデルの相関サンプルによる拡張を提案する。
人間の推論過程を明示的にシミュレートするために,多数決によるトレーニング不要な実体型校正を行う。
上記の2つの領域のデータセットに対する実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-08-27T12:25:24Z) - What Makes Data-to-Text Generation Hard for Pretrained Language Models? [17.07349898176898]
構造化された事実や関係(D2T)の自然言語記述を表現することで、構造化された知識リポジトリのアクセシビリティが向上する。
従来の研究は、タスク固有のトレーニングデータを大幅に微調整した後、事前学習された言語モデル(PLM)が、このタスクに対して驚くほどうまく機能していることを示している。
DARTマルチドメインD2Tデータセット上で、微調整と自動回帰PLMの両方について実証的研究を行う。
論文 参考訳(メタデータ) (2022-05-23T17:58:39Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - An Empirical Study on Few-shot Knowledge Probing for Pretrained Language
Models [54.74525882974022]
1ホップと2ホップの双方において、いくつかの例は、探索性能を強く向上させることができることを示す。
特に、モデル内のバイアスベクトルを微調整する単純なyet効果のアプローチが、既存のプロンプトエンジニアリング手法より優れていることが分かる。
論文 参考訳(メタデータ) (2021-09-06T23:29:36Z) - Generate, Annotate, and Learn: Generative Models Advance Self-Training
and Knowledge Distillation [58.64720318755764]
Semi-Supervised Learning (SSL)は多くのアプリケーションドメインで成功している。
知識蒸留(KD)により、深層ネットワークとアンサンブルの圧縮が可能となり、新しいタスク固有の未ラベルの例について知識を蒸留する際に最良の結果が得られる。
我々は、非条件生成モデルを用いて、ドメイン内の未ラベルデータを合成する「生成、注釈、学習(GAL)」と呼ばれる一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-11T05:01:24Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Semantic Labeling Using a Deep Contextualized Language Model [9.719972529205101]
本研究では,コラム値と文脈の両方を用いた文脈認識型セマンティックラベリング手法を提案する。
我々の新しい手法はセマンティックラベリングの新しい設定に基づいており、ヘッダーを欠いた入力テーブルのラベルを逐次予測する。
我々の知る限りでは、BERTをセマンティックラベリングタスクの解決に成功させたのは、私たちが初めてです。
論文 参考訳(メタデータ) (2020-10-30T03:04:22Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。