論文の概要: Entity-Assisted Language Models for Identifying Check-worthy Sentences
- arxiv url: http://arxiv.org/abs/2211.10678v1
- Date: Sat, 19 Nov 2022 12:03:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 18:53:58.800475
- Title: Entity-Assisted Language Models for Identifying Check-worthy Sentences
- Title(参考訳): チェックすべき文を識別するためのエンティティ支援言語モデル
- Authors: Ting Su, Craig Macdonald, Iadh Ounis
- Abstract要約: テキスト分類とランキングのための統一的なフレームワークを提案する。
本フレームワークは,文の意味的分析と,文内の識別されたエンティティから得られる追加のエンティティ埋め込みを組み合わせる。
CLEFの2019年と2020年のCheckThat! Labsから公開されている2つのデータセットを使用して、我々のフレームワークの有効性を広く評価する。
- 参考スコア(独自算出の注目度): 23.792877053142636
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose a new uniform framework for text classification and ranking that
can automate the process of identifying check-worthy sentences in political
debates and speech transcripts. Our framework combines the semantic analysis of
the sentences, with additional entity embeddings obtained through the
identified entities within the sentences. In particular, we analyse the
semantic meaning of each sentence using state-of-the-art neural language models
such as BERT, ALBERT, and RoBERTa, while embeddings for entities are obtained
from knowledge graph (KG) embedding models. Specifically, we instantiate our
framework using five different language models, entity embeddings obtained from
six different KG embedding models, as well as two combination methods leading
to several Entity-Assisted neural language models. We extensively evaluate the
effectiveness of our framework using two publicly available datasets from the
CLEF' 2019 & 2020 CheckThat! Labs. Our results show that the neural language
models significantly outperform traditional TF.IDF and LSTM methods. In
addition, we show that the ALBERT model is consistently the most effective
model among all the tested neural language models. Our entity embeddings
significantly outperform other existing approaches from the literature that are
based on similarity and relatedness scores between the entities in a sentence,
when used alongside a KG embedding.
- Abstract(参考訳): 本稿では,政治討論や音声の書き起こしにおいて,チェックすべき文を識別するプロセスを自動化するための,テキスト分類とランク付けのための新しい統一フレームワークを提案する。
本フレームワークは,文の意味分析と,文内の識別されたエンティティから得られる追加のエンティティ埋め込みを組み合わせる。
特に、BERT、ALBERT、RoBERTaといった最先端のニューラルネットワークモデルを用いて各文の意味を解析し、知識グラフ(KG)埋め込みモデルからエンティティへの埋め込みを求める。
具体的には,5つの異なる言語モデル,6つの異なるKG埋め込みモデルから得られたエンティティ埋め込み,および2つの組み合わせ手法を用いて,フレームワークをインスタンス化する。
CLEF' 2019と2020 CheckThatの2つの公開データセットを使用して、我々のフレームワークの有効性を広く評価する。
研究室
その結果,ニューラルネットワークモデルは従来のTF.IDF法やLSTM法よりも大幅に優れていた。
さらに、ALBERTモデルは、テストされた全てのニューラルネットワークモデルの中で、一貫して最も効果的なモデルであることを示す。
当社のエンティティ埋め込みは,kg埋め込みと併用した場合の文中のエンティティ間の類似性と関連度スコアに基づく文献の既存のアプローチを著しく上回っている。
関連論文リスト
- Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Confidence-based Ensembles of End-to-End Speech Recognition Models [71.65982591023581]
5つの単言語モデルの信頼に基づくアンサンブルは、専用言語識別ブロックを介してモデル選択を行うシステムより優れていることを示す。
また、ベースモデルと適応モデルを組み合わせることで、オリジナルデータとターゲットデータの両方で強力な結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-27T23:13:43Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Interpreting Language Models Through Knowledge Graph Extraction [42.97929497661778]
BERTに基づく言語モデルを,学習過程の逐次的な段階において取得した知識のスナップショットを通じて比較する。
本稿では, クローズイン・ザ・ブランク文から知識グラフを抽出し, 知識獲得のタイムラインを提示する手法を提案する。
この分析を, BERTモデル(DistilBERT, BERT-base, RoBERTa)の事前学習変化の比較に拡張する。
論文 参考訳(メタデータ) (2021-11-16T15:18:01Z) - Leveraging Advantages of Interactive and Non-Interactive Models for
Vector-Based Cross-Lingual Information Retrieval [12.514666775853598]
対話型モデルと非対話型モデルの利点を活用する新しいフレームワークを提案する。
非対話型アーキテクチャ上でモデルを構築できる半対話型機構を導入するが、各文書を関連付けられた多言語クエリと共にエンコードする。
本手法は,計算効率を維持しながら検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-03T03:03:19Z) - Reranking Machine Translation Hypotheses with Structured and Web-based
Language Models [11.363601836199331]
N-best Rescoringには2つの構造化言語モデルが適用される。
これらの言語モデルの組み合わせにより、BLEUのスコアはブラインドテストセットで完全に1.6%まで上昇する。
論文 参考訳(メタデータ) (2021-04-25T22:09:03Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - Introducing various Semantic Models for Amharic: Experimentation and
Evaluation with multiple Tasks and Datasets [19.855120632909124]
我々はAmharicの異なるセマンティックモデルを導入する。
モデルは word2Vec 埋め込み、分散シソーラス (DT)、コンテキスト埋め込み、DT 埋め込みを使って構築される。
新たに訓練されたモデルは、事前訓練された多言語モデルよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2020-11-02T17:48:25Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。