論文の概要: XREF: Entity Linking for Chinese News Comments with Supplementary
Article Reference
- arxiv url: http://arxiv.org/abs/2006.14017v1
- Date: Wed, 24 Jun 2020 19:42:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 12:51:46.029601
- Title: XREF: Entity Linking for Chinese News Comments with Supplementary
Article Reference
- Title(参考訳): xref: 追加記事参照による中国語ニュースコメントのエンティティリンク
- Authors: Xinyu Hua, Lei Li, Lifeng Hua, Lu Wang
- Abstract要約: 本研究では,中国のニュースコメントに対するエンティティリンクの問題点について考察する。
本稿では、注意機構を利用して関連するコンテキストをピンポイントする新しいモデルXREFを提案する。
大規模未ラベルコーパスを利用した弱教師付きトレーニング手法を開発した。
- 参考スコア(独自算出の注目度): 19.811371589597382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic identification of mentioned entities in social media posts
facilitates quick digestion of trending topics and popular opinions.
Nonetheless, this remains a challenging task due to limited context and diverse
name variations. In this paper, we study the problem of entity linking for
Chinese news comments given mentions' spans. We hypothesize that comments often
refer to entities in the corresponding news article, as well as topics
involving the entities. We therefore propose a novel model, XREF, that
leverages attention mechanisms to (1) pinpoint relevant context within
comments, and (2) detect supporting entities from the news article. To improve
training, we make two contributions: (a) we propose a supervised attention loss
in addition to the standard cross entropy, and (b) we develop a weakly
supervised training scheme to utilize the large-scale unlabeled corpus. Two new
datasets in entertainment and product domains are collected and annotated for
experiments. Our proposed method outperforms previous methods on both datasets.
- Abstract(参考訳): ソーシャルメディア投稿における言及されたエンティティの自動識別は、トレンドトピックや人気意見の迅速な消化を促進する。
それでも、コンテキストの制限とさまざまな名前のバリエーションのため、これは難しい作業です。
本稿では,中国語のニュースコメントに対するエンティティリンクの問題点について考察する。
我々は、コメントが対応するニュース記事のエンティティや、それらのエンティティに関連するトピックを指すことが多いと仮定する。
そこで本稿では,(1)コメント中の関連コンテキストの特定,(2)ニュース記事からの支持エンティティの検出に注意機構を利用する新しいモデルであるxrefを提案する。
トレーニングを改善するために、私たちは2つの貢献をします。
(a)標準のクロスエントロピーに加え、監視対象の注意損失を提案する。
b)大規模未ラベルコーパスを利用した弱教師付きトレーニング手法を開発した。
エンタテインメントとプロダクトドメインの2つの新しいデータセットが収集され、実験用にアノテートされる。
提案手法は,両データセットにおける従来手法よりも優れている。
関連論文リスト
- Improving Long Context Document-Level Machine Translation [51.359400776242786]
翻訳の一貫性と凝集性を改善するために、ニューラルネットワーク翻訳(NMT)のための文書レベルのコンテキストが不可欠である。
文書レベルのNMTに関する多くの著作が出版されているが、ほとんどの作品では局所的な文脈に制限されている。
本稿では、メモリ消費を同時に低減しつつ、シーケンスの最も関連性の高い部分に注意を集中させる制約付注意変種を提案する。
論文 参考訳(メタデータ) (2023-06-08T13:28:48Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Generative Entity-to-Entity Stance Detection with Knowledge Graph
Augmentation [7.857310305816312]
スタンス検出は通常、テキスト中の感情をターゲットエンティティに向けて予測するものとしてフレーム化される。
本稿では,スタンスを推定する際,実体間の相互作用を研究する必要性を強調した。
まず、まず、エンティティ・トゥ・エンタリティ(E2E)スタンス検出という新しいタスクを導入する。
論文 参考訳(メタデータ) (2022-11-02T20:16:42Z) - RaFoLa: A Rationale-Annotated Corpus for Detecting Indicators of Forced
Labour [4.393754160527062]
本稿では,マルチクラスおよび複数ラベルの強制労働検出のための注釈付き英語コーパスについて紹介する。
コーパスは、国際労働機関(ILO)が定めるリスク指標に従って、専門データソースから検索した989のニュース記事で構成されている。
論文 参考訳(メタデータ) (2022-05-05T14:43:31Z) - Out of Context: A New Clue for Context Modeling of Aspect-based
Sentiment Analysis [54.735400754548635]
ABSAは、与えられた側面に関してレビューで表現された感情を予測することを目的としている。
与えられたアスペクトは、コンテキストモデリングプロセスにおけるコンテキストからの新たなヒントと見なされるべきである。
異なるバックボーンに基づいて複数のアスペクト認識コンテキストエンコーダを設計する。
論文 参考訳(メタデータ) (2021-06-21T02:26:03Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - RuREBus: a Case Study of Joint Named Entity Recognition and Relation
Extraction from e-Government Domain [7.6462329126769815]
本稿では、国家機関が発行する文書からなる新しいコーパスに対して、名前付きエンティティ認識(NER)や関係抽出(RE)などの情報抽出手法の適用例を示す。
このコーパスの主な課題は、1) アノテーションスキームが一般的なドメインコーパスで使用されるものとは大きく異なり、2) 文書は英語以外の言語で記述されている。
論文 参考訳(メタデータ) (2020-10-29T20:56:15Z) - Integrating Semantic and Structural Information with Graph Convolutional
Network for Controversy Detection [15.578214777082104]
ポストレベル論争検出のためのトピック・ポストコムグラフ畳み込みネットワーク(TPC-GCN)を提案する。
我々は,このモデルをDistangled TPC-GCNに拡張し,トピック関連およびトピック非関連の特徴を解消する。
我々のモデルは意味情報と構造情報を有意な一般化性で統合することができる。
論文 参考訳(メタデータ) (2020-05-16T06:29:14Z) - Generating Representative Headlines for News Stories [31.67864779497127]
同じ出来事をニュースに報告している記事のグループ化は、読者がニュースを消費するのを助ける一般的な方法である。
各ストーリーの代表的見出しを効率的かつ効果的に生成することは、依然として困難な研究課題である。
我々は,人間のアノテーションを使わずに大規模世代モデルを訓練するための遠隔監視手法を開発した。
論文 参考訳(メタデータ) (2020-01-26T02:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。