論文の概要: Modeling "Newsworthiness" for Lead-Generation Across Corpora
- arxiv url: http://arxiv.org/abs/2104.09653v1
- Date: Mon, 19 Apr 2021 21:48:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 03:07:51.034074
- Title: Modeling "Newsworthiness" for Lead-Generation Across Corpora
- Title(参考訳): コーパスにおけるリードジェネレーションの「新しさ」のモデル化
- Authors: Alexander Spangher, Nanyun Peng, Jonathan May and Emilio Ferrara
- Abstract要約: 自動ラベル付きコーパスでモデルをトレーニングして,各記事がフロントページであるかどうかを予測した。
ラベルのないコーポラの文書に「新しさ」をランク付けする
微調整されたRoBERTaモデルは、ホールトアウトラベル付き文書で.93AUC、エキスパート検証未ラベルコーパスで.88AUCを達成する。
- 参考スコア(独自算出の注目度): 85.92467549469147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Journalists obtain "leads", or story ideas, by reading large corpora of
government records: court cases, proposed bills, etc. However, only a small
percentage of such records are interesting documents. We propose a model of
"newsworthiness" aimed at surfacing interesting documents. We train models on
automatically labeled corpora -- published newspaper articles -- to predict
whether each article was a front-page article (i.e., \textbf{newsworthy}) or
not (i.e., \textbf{less newsworthy}). We transfer these models to unlabeled
corpora -- court cases, bills, city-council meeting minutes -- to rank
documents in these corpora on "newsworthiness". A fine-tuned RoBERTa model
achieves .93 AUC performance on heldout labeled documents, and .88 AUC on
expert-validated unlabeled corpora. We provide interpretation and visualization
for our models.
- Abstract(参考訳): ジャーナリストは、裁判所事件、法案案など、政府記録の大きなコーパスを読むことで「リーダー」または物語のアイデアを得る。
しかし、そうした記録のごく一部が興味深い文書である。
興味ある文書を提示することを目的とした「新鮮さ」のモデルを提案する。
私たちは、各記事がフロントページの記事であるかどうかを予測するために、自動ラベル付きコーポラ(新聞記事)でモデルをトレーニングします(例: \textbf{newsworthy})。
われわれはこれらのモデルを未定のコーパス(訴訟、法案、市議会の議事録)に転送し、これらのコーパスの文書を「新鮮さ」でランク付けする。
微調整されたRoBERTaモデルでは、ホールトアウトラベル付き文書では.93 AUC、エキスパート検証されていないコーパスでは.88 AUCを達成している。
モデルに対する解釈と視覚化を提供します。
関連論文リスト
- Tracking the Newsworthiness of Public Documents [107.12303391111014]
この研究は、サンフランシスコ・クロニクル(San Francisco Chronicle)によるサンフランシスコ・ベイエリアにおける地方公共政策のニュース報道に焦点を当てている。
まず、新聞記事、公共政策文書、会議記録を収集し、確率的関係モデルを用いてそれらをリンクする。
第二に、ポリシー項目がカバーされるかどうかを予測するために、ニューズサステイネス予測という新しいタスクを定義します。
論文 参考訳(メタデータ) (2023-11-16T10:05:26Z) - Adapting Fake News Detection to the Era of Large Language Models [54.60443666911077]
我々は,機械による(言い換えられた)リアルニュース,機械生成のフェイクニュース,人書きのフェイクニュース,人書きのリアルニュースの相互作用について検討する。
我々の実験では、人書き記事のみに特化して訓練された検知器が、機械が生成したフェイクニュースを検出できる興味深いパターンを明らかにしましたが、その逆ではありません。
論文 参考訳(メタデータ) (2023-11-02T08:39:45Z) - The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora
with Web Data, and Web Data Only [48.498376125522114]
適切にフィルタリングされ、分離されたWebデータだけで、強力なモデルに繋がることを示す。
RefinedWebデータセットから600億のトークンの抽出と、それに基づいてトレーニングされた1.3/7.5Bパラメータ言語モデルをリリースします。
論文 参考訳(メタデータ) (2023-06-01T20:03:56Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on
Social Media [53.51665032295087]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Automatic Generation of Factual News Headlines in Finnish [1.6918354618189375]
我々はこれを,モデルにニュース記事が与えられる要約タスクとしてモデル化し,その課題は記事の主要なトピックを記述した簡潔な見出しを作成することである。
フィンランドでは GPT-2 モデルが公開されていないため、まず複数のコーパスを用いて構築する。
モデルは、巨大なニュースコーパスを使用して、見出し生成タスクのために微調整される。
論文 参考訳(メタデータ) (2022-12-05T11:12:14Z) - Model Extraction Attack against Self-supervised Speech Models [52.81330435990717]
自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成する。
モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。
本稿では,少数のクエリを用いたSSL音声モデルに対するMEA問題について検討する。
論文 参考訳(メタデータ) (2022-11-29T09:28:05Z) - Quantifying Political Bias in News Articles [0.15229257192293202]
我々は、オンラインニュース記事のイデオロギーバイアスを評価するための自動モデルを確立することを目指している。
現在の自動モデルの結果は、自動的に文書に注釈を付けるのにモデル機能を利用するには不十分であることを示している。
論文 参考訳(メタデータ) (2022-10-07T08:51:20Z) - OpenFraming: We brought the ML; you bring the data. Interact with your
data and discover its frames [13.695739582457872]
テキスト文書中のフレームを解析・分類する Web ベースのシステムを提案する。
我々は,様々な問題に関する最先端の事前学習フレーム分類モデルと,新規分類モデルの学習のためのユーザフレンドリなパイプラインを提供する。
私たちのシステムを構成するコードもオープンソースでドキュメント化されています。
論文 参考訳(メタデータ) (2020-08-16T18:59:30Z) - Zero-shot topic generation [10.609815608017065]
本稿では,文書タイトル生成にのみ訓練されたモデルを用いてトピックを生成する手法を提案する。
私たちは、そのドキュメントのタイトルを生成するために、ドキュメント内の候補の関連性をキャプチャする機能を活用します。
アウトプットは、文書を記述し、コーパス内でそれを区別するのに最も関係のあるフレーズの重み付けされたコレクションである。
論文 参考訳(メタデータ) (2020-04-29T04:39:28Z) - Generating Representative Headlines for News Stories [31.67864779497127]
同じ出来事をニュースに報告している記事のグループ化は、読者がニュースを消費するのを助ける一般的な方法である。
各ストーリーの代表的見出しを効率的かつ効果的に生成することは、依然として困難な研究課題である。
我々は,人間のアノテーションを使わずに大規模世代モデルを訓練するための遠隔監視手法を開発した。
論文 参考訳(メタデータ) (2020-01-26T02:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。