論文の概要: Stay on Topic, Please: Aligning User Comments to the Content of a News
Article
- arxiv url: http://arxiv.org/abs/2103.06130v1
- Date: Wed, 3 Mar 2021 18:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 00:56:23.307431
- Title: Stay on Topic, Please: Aligning User Comments to the Content of a News
Article
- Title(参考訳): ニュース記事の内容に対するユーザーコメントのアライメントをお願いします。
- Authors: Jumanah Alshehri, Marija Stanojevic, Eduard Dragut, Zoran Obradovic
- Abstract要約: 新たな記事ベースに投稿されたユーザコメントとその内容との整合性を分類する分類アルゴリズムを提案する。
このアライメントは、コンテンツ、議論のエンティティ、トピック間の類似性に基づいて、ユーザーコメントと記事とを一致させようとする。
分類作業の難易度を理解するために,人間のラベル付け性能を評価するためのユーザ調査を行う。
- 参考スコア(独自算出の注目度): 7.3203631241415055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social scientists have shown that up to 50% if the content posted to a news
article have no relation to its journalistic content. In this study we propose
a classification algorithm to categorize user comments posted to a new article
base don their alignment to its content. The alignment seek to match user
comments to an article based on similarity off content, entities in discussion,
and topic. We proposed a BERTAC, BAERT-based approach that learn jointly
article-comment embeddings and infers the relevance class of comments. We
introduce an ordinal classification loss that penalizes the difference between
the predicted and true label. We conduct a thorough study to show influence of
the proposed loss on the learning process. The results on five representative
news outlets show that our approach can learn the comment class with up to 36%
average accuracy improvement compering to the baselines, and up to 25%
compering to the BA-BC model. BA-BC is out approach that consists of two models
aimed to capture dis-jointly the formal language of news articles and the
informal language of comments. We also conduct a user study to evaluate human
labeling performance to understand the difficulty of the classification task.
The user agreement on comment-article alignment is "moderate" per
Krippendorff's alpha score, which suggests that the classification task is
difficult.
- Abstract(参考訳): 社会科学者は、ニュース記事に投稿されたコンテンツがジャーナリストのコンテンツと無関係である場合、最大50%のシェアを示した。
本研究では,新しい記事ベースに投稿されたコメントをコンテンツに関連付けるように分類するアルゴリズムを提案する。
このアライメントは、コンテンツ、議論のエンティティ、トピック間の類似性に基づいて、ユーザーコメントと記事とを一致させようとする。
我々は,共同で記事の埋め込みを学習し,関連するコメントのクラスを推測するBERTAC,BAERTベースのアプローチを提案する。
予測されたラベルと真のラベルの差を罰する順序的分類損失を導入する。
提案する損失が学習プロセスに与える影響を明らかにするため,詳細な研究を行った。
5つの代表的なニュースメディアの結果から,ベースラインに対して最大36%の精度向上,ba-bcモデルに最大25%の精度でコメントクラスを学習できることがわかった。
BA-BCは2つのモデルからなるアプローチであり、ニュース記事の形式言語とコメントの非公式言語を不一致に捉えることを目的としている。
また,分類作業の難易度を理解するために,人間のラベル付け性能を評価するためのユーザ調査を行った。
コメントと記事のアライメントに関するユーザアライメントは、krippendorff氏のアルファスコアに応じて“モデレート”であり、分類作業が難しいことを示唆している。
関連論文リスト
- LLM-based Rewriting of Inappropriate Argumentation using Reinforcement Learning from Machine Feedback [16.57980268646285]
本稿では,議論における不適切な言語を計算的に緩和する方法について検討する。
コンテンツ保存と適切性のバランスをとるための強化学習に基づく書き直し手法を提案する。
絶対的および相対的評価研究において,報酬関数の重み付け方式について検討した。
論文 参考訳(メタデータ) (2024-06-05T15:18:08Z) - Explore Spurious Correlations at the Concept Level in Language Models for Text Classification [28.832684088975622]
言語モデル(LM)は多くのNLPタスクで顕著な成功を収めた。
トレーニングデータやICLの実践者の不均衡なラベル分布から生じる急激な相関による堅牢性の問題に直面している。
本稿では,2つの主なコントリビューションを紹介する。まず,概念ラベルをテキストに割り当てるためにChatGPTを用い,テストデータ上での微調整時のモデルにおける概念バイアスやICLを評価する。
第2に,ChatGPT生成した反ファクトデータを組み込んだデータ再バランス手法を導入し,ラベル分布のバランスを保ち,突発的相関を緩和する。
論文 参考訳(メタデータ) (2023-11-15T01:58:54Z) - JointMatch: A Unified Approach for Diverse and Collaborative
Pseudo-Labeling to Semi-Supervised Text Classification [65.268245109828]
半教師付きテキスト分類(SSTC)は、ラベルのないデータを活用する能力によって注目を集めている。
擬似ラベルに基づく既存のアプローチは、擬似ラベルバイアスと誤り蓄積の問題に悩まされる。
我々は、最近の半教師付き学習からアイデアを統一することでこれらの課題に対処する、SSTCの総合的なアプローチであるJointMatchを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:43:35Z) - Subjective Crowd Disagreements for Subjective Data: Uncovering
Meaningful CrowdOpinion with Population-level Learning [8.530934084017966]
emphCrowdOpinionは、言語特徴とラベル分布を用いて、類似した項目をラベル分布のより大きなサンプルにまとめる教師なし学習手法である。
ソーシャルメディアから利用可能な5つのベンチマークデータセット(アノテータの不一致のレベルが異なる)を使用します。
また、Facebookのデータセットを使って、投稿に反応するユーザーによって、プラットフォーム自体からアノテーションが送られてくるような実験も行っています。
論文 参考訳(メタデータ) (2023-07-07T22:09:46Z) - Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - A Unified Dual-view Model for Review Summarization and Sentiment
Classification with Inconsistency Loss [51.448615489097236]
ユーザーレビューから正確な要約と感情を取得することは、現代のEコマースプラットフォームにとって不可欠な要素である。
本稿では,これら2つのタスクの性能を協調的に改善する新しいデュアルビューモデルを提案する。
異なる領域の4つの実世界のデータセットに対する実験結果から,本モデルの有効性が示された。
論文 参考訳(メタデータ) (2020-06-02T13:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。