論文の概要: DESYR: Definition and Syntactic Representation Based Claim Detection on
the Web
- arxiv url: http://arxiv.org/abs/2108.08759v1
- Date: Thu, 19 Aug 2021 16:00:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-20 16:32:26.245392
- Title: DESYR: Definition and Syntactic Representation Based Claim Detection on
the Web
- Title(参考訳): DESYR: Web上の定義と構文表現に基づくクレーム検出
- Authors: Megha Sundriyal, Parantak Singh, Md Shad Akhtar, Shubhashis Sengupta,
Tanmoy Chakraborty
- Abstract要約: DESYRは、非公式なWebベースのテキストの問題を無効化するフレームワークである。
4つのベンチマーククレームデータセットにまたがって、最先端のシステムを構築する。
ソースコードとともに、Poincare-variantの100-D事前訓練バージョンを作成します。
- 参考スコア(独自算出の注目度): 16.00615726292801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The formulation of a claim rests at the core of argument mining. To demarcate
between a claim and a non-claim is arduous for both humans and machines, owing
to latent linguistic variance between the two and the inadequacy of extensive
definition-based formalization. Furthermore, the increase in the usage of
online social media has resulted in an explosion of unsolicited information on
the web presented as informal text. To account for the aforementioned, in this
paper, we proposed DESYR. It is a framework that intends on annulling the said
issues for informal web-based text by leveraging a combination of hierarchical
representation learning (dependency-inspired Poincare embedding),
definition-based alignment, and feature projection. We do away with fine-tuning
computer-heavy language models in favor of fabricating a more domain-centric
but lighter approach. Experimental results indicate that DESYR builds upon the
state-of-the-art system across four benchmark claim datasets, most of which
were constructed with informal texts. We see an increase of 3 claim-F1 points
on the LESA-Twitter dataset, an increase of 1 claim-F1 point and 9 macro-F1
points on the Online Comments(OC) dataset, an increase of 24 claim-F1 points
and 17 macro-F1 points on the Web Discourse(WD) dataset, and an increase of 8
claim-F1 points and 5 macro-F1 points on the Micro Texts(MT) dataset. We also
perform an extensive analysis of the results. We make a 100-D pre-trained
version of our Poincare-variant along with the source code.
- Abstract(参考訳): 主張の定式化は、議論のマイニングの核心にある。
両者の言語的差異が潜んでいることと、広範囲な定義に基づく形式化の不十分さにより、クレームと非クレームの分離が人間と機械の両方にとって困難である。
さらに、オンラインソーシャルメディアの利用の増加は、非公式テキストとして提示されるウェブ上の未完成情報の爆発をもたらした。
本稿では,上記のことを考慮し,DESYRを提案する。
階層型表現学習(依存性に着想を得たPoincare埋め込み)、定義ベースのアライメント、特徴投影の組み合わせを活用することで、Webベースの非公式テキストの問題を解消するフレームワークである。
我々は、よりドメイン中心の、より軽量なアプローチを作るために、微調整されたコンピュータ重言語モデルを廃止します。
実験の結果、desyrは4つのベンチマーククレームデータセットにまたがって最先端のシステムを構築しており、そのほとんどは非公式のテキストで構築されている。
LESA-Twitterデータセットでは3つのクレームF1ポイントが増加し,オンラインコメント(OC)データセットでは1つのクレームF1ポイントと9つのマクロF1ポイントが増加し,Web Discourse(WD)データセットでは24個のクレームF1ポイントと17個のマクロF1ポイントが増加し,マイクロテキスト(MT)データセットでは8つのクレームF1ポイントと5つのマクロF1ポイントが増加した。
また、その結果を広範囲に分析する。
ソースコードとともに、Poincareの100D事前訓練バージョンを作成します。
関連論文リスト
- FarFetched: Entity-centric Reasoning and Claim Validation for the Greek Language based on Textually Represented Environments [0.3874856507026475]
複数のオンラインニュースソースから得られた集合的証拠に基づいて,自動クレーム検証の必要性に対処する。
イベント、アクション、ステートメント間の遅延接続を明らかにするエンティティ中心の推論フレームワークを導入します。
提案手法は,低リソース言語に対する自動クレーム検証のギャップを埋めようとしている。
論文 参考訳(メタデータ) (2024-07-13T13:30:20Z) - SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim
Verification on Scientific Tables [68.76415918462418]
本報告では,1.2Kの専門的な科学的クレームからなる,挑戦的な評価データセットであるSCITABについて述べる。
広範な評価を通じて、SCITABは最先端のモデルに重大な課題をもたらすことを示した。
SCITABは,表の接地,主張のあいまいさ,構成的推論など,いくつかの独特な課題を明らかにした。
論文 参考訳(メタデータ) (2023-05-22T16:13:50Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Dense Paraphrasing for Textual Enrichment [7.6233489924270765]
文構造において(必要に)表現されない意味論をDense Paraphrasing(DP)として明示しつつ、曖昧さを低減させるような文表現(レキセムやフレーズ)を書き換えるプロセスを定義する。
我々は、最初の完全なDPデータセットを構築し、アノテーションタスクのスコープと設計を提供し、このDPプロセスがどのようにソーステキストを豊かにし、推論とQAタスクのパフォーマンスを改善するかを示す。
論文 参考訳(メタデータ) (2022-10-20T19:58:31Z) - End-to-End Multimodal Fact-Checking and Explanation Generation: A
Challenging Dataset and Models [0.0]
エンドツーエンドのファクトチェックと説明生成を提案する。
目標は、主張の真理性を評価することであり、関連する証拠を取得し、真理性ラベルを予測することである。
この研究を支援するために15,601クレームからなる大規模データセットであるMochegを構築した。
論文 参考訳(メタデータ) (2022-05-25T04:36:46Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - LESA: Linguistic Encapsulation and Semantic Amalgamation Based
Generalised Claim Detection from Online Content [15.814664354258184]
LESAは、ソース非依存の一般化モデルを組み込むことで、先進的な問題を解消することを目的としている。
我々は、大規模な非構造化データセット上でテスト基盤を提供することを目的としたTwitterデータセットに注釈を付けることで、後者の問題を解決する。
実験の結果、LESAは6つのベンチマーククレームデータセットで最先端のパフォーマンスを改善することがわかった。
論文 参考訳(メタデータ) (2021-01-28T09:51:30Z) - Commonsense Evidence Generation and Injection in Reading Comprehension [57.31927095547153]
本稿では,CEGI と命名された理解を読み取るためのコモンセンス・エビデンス・ジェネレーション・インジェクション・フレームワークを提案する。
この枠組みは、2種類の補助的コモンセンス証拠を包括的読解に注入し、機械に合理的思考能力を持たせる。
CosmosQAデータセットの実験では、提案されたCEGIモデルが現在の最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-11T16:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。