論文の概要: LESA: Linguistic Encapsulation and Semantic Amalgamation Based
Generalised Claim Detection from Online Content
- arxiv url: http://arxiv.org/abs/2101.11891v1
- Date: Thu, 28 Jan 2021 09:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-01-31 23:30:08.665510
- Title: LESA: Linguistic Encapsulation and Semantic Amalgamation Based
Generalised Claim Detection from Online Content
- Title(参考訳): LESA:オンラインコンテンツからの一般化クレーム検出に基づく言語カプセル化とセマンティックアマゲーション
- Authors: Shreya Gupta, Parantak Singh, Megha Sundriyal, Md Shad Akhtar, Tanmoy
Chakraborty
- Abstract要約: LESAは、ソース非依存の一般化モデルを組み込むことで、先進的な問題を解消することを目的としている。
我々は、大規模な非構造化データセット上でテスト基盤を提供することを目的としたTwitterデータセットに注釈を付けることで、後者の問題を解決する。
実験の結果、LESAは6つのベンチマーククレームデータセットで最先端のパフォーマンスを改善することがわかった。
- 参考スコア(独自算出の注目度): 15.814664354258184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The conceptualization of a claim lies at the core of argument mining. The
segregation of claims is complex, owing to the divergence in textual syntax and
context across different distributions. Another pressing issue is the
unavailability of labeled unstructured text for experimentation. In this paper,
we propose LESA, a framework which aims at advancing headfirst into expunging
the former issue by assembling a source-independent generalized model that
captures syntactic features through part-of-speech and dependency embeddings,
as well as contextual features through a fine-tuned language model. We resolve
the latter issue by annotating a Twitter dataset which aims at providing a
testing ground on a large unstructured dataset. Experimental results show that
LESA improves upon the state-of-the-art performance across six benchmark claim
datasets by an average of 3 claim-F1 points for in-domain experiments and by 2
claim-F1 points for general-domain experiments. On our dataset too, LESA
outperforms existing baselines by 1 claim-F1 point on the in-domain experiments
and 2 claim-F1 points on the general-domain experiments. We also release
comprehensive data annotation guidelines compiled during the annotation phase
(which was missing in the current literature).
- Abstract(参考訳): 主張の概念化は、議論マイニングの核心にあります。
クレームの分離は、異なる分布にわたるテキスト構文とコンテキストの相違のため、複雑である。
もうひとつの課題は,実験用のラベル付き非構造化テキストが利用できないことだ。
本稿では,音声と依存性の埋め込みによる構文的特徴の収集と,微調整言語モデルによる文脈的特徴の収集により,従来の問題を解消することを目的としたフレームワークLESAを提案する。
大規模な非構造化データセットにテスト基盤を提供することを目的としたTwitterデータセットをアノテートすることで、後者の問題を解決します。
実験の結果、lesaは6つのベンチマーククレームデータセットにおける最先端のパフォーマンスを、ドメイン内実験で平均3つのクレーム-f1ポイント、一般ドメイン実験で2つのクレーム-f1ポイントで改善した。
我々のデータセットでも、LESAは既存のベースラインを1つのドメイン実験で1つのクレーム-F1ポイント、一般ドメイン実験で2つのクレーム-F1ポイントで上回ります。
また、アノテーションフェーズ(現在の文献に欠けている)にコンパイルされた包括的なデータアノテーションガイドラインもリリースします。
関連論文リスト
- On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Inducing Causal Structure for Abstractive Text Summarization [76.1000380429553]
要約データの因果構造を誘導する構造因果モデル(SCM)を導入する。
本稿では因果的要因を模倣できる因果的表現を学習するための因果性インスピレーション付き系列列列モデル(CI-Seq2Seq)を提案する。
2つの広く使われているテキスト要約データセットの実験結果は、我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-08-24T16:06:36Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z) - Full-Text Argumentation Mining on Scientific Publications [3.8754200816873787]
フルテキストSAMに対してADURとAREを組み合わせた逐次パイプラインモデルを提案する。
両サブタスクにおける事前学習言語モデル(PLM)の性能について,最初の解析を行った。
本稿では,非連続型ADUと談話コネクタの解釈が重要な課題であることを示す。
論文 参考訳(メタデータ) (2022-10-24T10:05:30Z) - R$^2$F: A General Retrieval, Reading and Fusion Framework for
Document-level Natural Language Inference [29.520857954199904]
文書レベルの自然言語推論(DOCNLI)は、自然言語処理における新しい課題である。
我々は、Retrieval, Reading and Fusion (R2F)フレームワークと呼ばれる一般的なソリューションと、新しい設定を確立する。
実験結果から,R2Fフレームワークは最先端の性能を得ることができ,多種多様なエビデンス検索手法に対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2022-10-22T02:02:35Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - DESYR: Definition and Syntactic Representation Based Claim Detection on
the Web [16.00615726292801]
DESYRは、非公式なWebベースのテキストの問題を無効化するフレームワークである。
4つのベンチマーククレームデータセットにまたがって、最先端のシステムを構築する。
ソースコードとともに、Poincare-variantの100-D事前訓練バージョンを作成します。
論文 参考訳(メタデータ) (2021-08-19T16:00:13Z) - WikiAsp: A Dataset for Multi-domain Aspect-based Summarization [69.13865812754058]
マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。
具体的には、アスペクトアノテーションのプロキシとして、各記事のセクションタイトルとバウンダリを使用して、20の異なるドメインからウィキペディア記事を使用してデータセットを構築します。
その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。
論文 参考訳(メタデータ) (2020-11-16T10:02:52Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Contextualized Embeddings in Named-Entity Recognition: An Empirical
Study on Generalization [14.47381093162237]
文脈適応型埋め込みは、教師なし言語モデルを用いて、文脈に応じて単語表現を計算する。
標準英語ベンチマークは、列車とテストの言及の間に非現実的な語彙的重複があるため、文脈的特徴よりも語彙的の重要性を過大評価している。
私たちは、特にドメイン外において、見知らぬ参照の検出に特に有益であることが示しています。
論文 参考訳(メタデータ) (2020-01-22T15:15:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。