論文の概要: Probing Omissions and Distortions in Transformer-based RDF-to-Text Models
- arxiv url: http://arxiv.org/abs/2409.16707v1
- Date: Wed, 25 Sep 2024 07:54:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 05:00:58.093742
- Title: Probing Omissions and Distortions in Transformer-based RDF-to-Text Models
- Title(参考訳): 変圧器を用いたRDF-to-Textモデルにおける検出と歪み
- Authors: Juliette Faille, Albert Gatt, Claire Gardent,
- Abstract要約: 我々はRDF-to-Text生成に焦点をあて、BARTとT5のエンコーダ出力における欠落を探索する2つの方法を探る。
我々は、省略されたエンティティと歪んだエンティティの両方をエンコーダの出力埋め込みで探索できることを発見した。
このことは、エンコーダがこれらのエンティティに対してより弱い信号を発し、そのため情報の喪失の原因となることを示唆している。
- 参考スコア(独自算出の注目度): 8.59446681505414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Natural Language Generation (NLG), important information is sometimes omitted in the output text. To better understand and analyse how this type of mistake arises, we focus on RDF-to-Text generation and explore two methods of probing omissions in the encoder output of BART (Lewis et al, 2020) and of T5 (Raffel et al, 2019): (i) a novel parameter-free probing method based on the computation of cosine similarity between embeddings of RDF graphs and of RDF graphs in which we removed some entities and (ii) a parametric probe which performs binary classification on the encoder embeddings to detect omitted entities. We also extend our analysis to distorted entities, i.e. entities that are not fully correctly mentioned in the generated text (e.g. misspelling of entity, wrong units of measurement). We found that both omitted and distorted entities can be probed in the encoder's output embeddings. This suggests that the encoder emits a weaker signal for these entities and therefore is responsible for some loss of information. This also shows that probing methods can be used to detect mistakes in the output of NLG models.
- Abstract(参考訳): 自然言語生成(NLG)では、重要な情報は出力テキストで省略されることがある。
この種のミスの発生をよりよく理解し分析するために、RDF-to-Text生成に注目し、BART(Lewis et al, 2020)とT5(Raffel et al, 2019)のエンコーダ出力における2つの除去方法を探究する。
i) RDFグラフとRDFグラフの埋め込みのコサイン類似性の計算に基づく新しいパラメータフリーな探索法。
(2)エンコーダ埋め込みのバイナリ分類を行い、省略されたエンティティを検出するパラメトリックプローブ。
我々はまた、分析を歪んだエンティティ、すなわち生成されたテキストに完全に正しく言及されていないエンティティ(例えば、エンティティのミススペル、間違った測定単位)に拡張する。
我々は、省略されたエンティティと歪んだエンティティの両方をエンコーダの出力埋め込みで探索できることを発見した。
このことは、エンコーダがこれらのエンティティに対してより弱い信号を発し、そのため情報の喪失の原因となることを示唆している。
これはまた、NLGモデルの出力の誤りを検出するために、探索法が利用できることを示している。
関連論文リスト
- Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Knowledge-Augmented Language Model Verification [68.6099592486075]
最近の言語モデル(LM)は、パラメータに内在化された知識を持つテキストを生成する際、印象的な能力を示している。
本稿では,知識付加型LMの出力と知識を別個の検証器で検証することを提案する。
その結果,提案した検証器は,検索と生成の誤りを効果的に識別し,LMがより現実的に正しい出力を提供できることを示した。
論文 参考訳(メタデータ) (2023-10-19T15:40:00Z) - Inflected Forms Are Redundant in Question Generation Models [27.49894653349779]
本稿では,エンコーダ・デコーダ・フレームワークを用いた質問生成の性能向上手法を提案する。
まず,エンコーダの入力から入力された単語を識別し,根語に置き換える。
次に,エンコード・デコーダ・フレームワークにおける以下の動作の組合せとしてQGを適用することを提案する。質問語の生成,ソースシーケンスからの単語のコピー,単語変換型の生成である。
論文 参考訳(メタデータ) (2023-01-01T13:08:11Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Feature space reduction as data preprocessing for the anomaly detection [0.0]
単一クラスSVMを用いた異常検出のための特徴量を削減するために,2つのパイプラインを提案する。
両パイプラインの第一段階として、3つの畳み込みオートエンコーダの性能を比較した。
畳み込み型オートエンコーダアーキテクチャはこのタスクに大きな影響を与えないことを示す。
論文 参考訳(メタデータ) (2022-03-13T19:52:47Z) - A Cascade Dual-Decoder Model for Joint Entity and Relation Extraction [18.66493402386152]
重なり合う三重項を抽出する効果的なカスケード二重復号器法を提案する。
我々のアプローチは単純であり、テキスト固有の関係デコーダと関係対応エンティティデコーダを含んでいる。
提案手法の一般化性を検証するために,実世界の露天採掘データセットと2つの公開データセットについて実験を行った。
論文 参考訳(メタデータ) (2021-06-27T07:42:05Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Semi-supervised Autoencoding Projective Dependency Parsing [33.73819721400118]
半教師付きグラフベースの射影依存性解析のための2つのエンドツーエンド自動符号化モデルについて述べる。
どちらのモデルも、コンテキスト情報を利用して潜伏変数にエンコードできるディープニューラルネットワーク(DNN)と、入力を再構築可能な生成モデルであるデコーダの2つの部分で構成されている。
論文 参考訳(メタデータ) (2020-11-02T03:21:39Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。