論文の概要: Modeling "Newsworthiness" for Lead-Generation Across Corpora
- arxiv url: http://arxiv.org/abs/2104.09653v1
- Date: Mon, 19 Apr 2021 21:48:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 03:07:51.034074
- Title: Modeling "Newsworthiness" for Lead-Generation Across Corpora
- Title(参考訳): コーパスにおけるリードジェネレーションの「新しさ」のモデル化
- Authors: Alexander Spangher, Nanyun Peng, Jonathan May and Emilio Ferrara
- Abstract要約: 自動ラベル付きコーパスでモデルをトレーニングして,各記事がフロントページであるかどうかを予測した。
ラベルのないコーポラの文書に「新しさ」をランク付けする
微調整されたRoBERTaモデルは、ホールトアウトラベル付き文書で.93AUC、エキスパート検証未ラベルコーパスで.88AUCを達成する。
- 参考スコア(独自算出の注目度): 85.92467549469147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Journalists obtain "leads", or story ideas, by reading large corpora of
government records: court cases, proposed bills, etc. However, only a small
percentage of such records are interesting documents. We propose a model of
"newsworthiness" aimed at surfacing interesting documents. We train models on
automatically labeled corpora -- published newspaper articles -- to predict
whether each article was a front-page article (i.e., \textbf{newsworthy}) or
not (i.e., \textbf{less newsworthy}). We transfer these models to unlabeled
corpora -- court cases, bills, city-council meeting minutes -- to rank
documents in these corpora on "newsworthiness". A fine-tuned RoBERTa model
achieves .93 AUC performance on heldout labeled documents, and .88 AUC on
expert-validated unlabeled corpora. We provide interpretation and visualization
for our models.
- Abstract(参考訳): ジャーナリストは、裁判所事件、法案案など、政府記録の大きなコーパスを読むことで「リーダー」または物語のアイデアを得る。
しかし、そうした記録のごく一部が興味深い文書である。
興味ある文書を提示することを目的とした「新鮮さ」のモデルを提案する。
私たちは、各記事がフロントページの記事であるかどうかを予測するために、自動ラベル付きコーポラ(新聞記事)でモデルをトレーニングします(例: \textbf{newsworthy})。
われわれはこれらのモデルを未定のコーパス(訴訟、法案、市議会の議事録)に転送し、これらのコーパスの文書を「新鮮さ」でランク付けする。
微調整されたRoBERTaモデルでは、ホールトアウトラベル付き文書では.93 AUC、エキスパート検証されていないコーパスでは.88 AUCを達成している。
モデルに対する解釈と視覚化を提供します。
関連論文リスト
- TLDR: Token-Level Detective Reward Model for Large Vision Language Models [57.41524422460438]
既存の報酬モデルは、任意のテキストに1つのバイナリフィードバックを割り当てることによって、人間のアノテーションを模倣するだけである。
我々は、各テキストトークンにきめ細かいアノテーションを提供するために、$textbfT$oken-$textbfL$evel $textbfD$etective $textbfR$eward Modelを提案する。
論文 参考訳(メタデータ) (2024-10-07T04:00:22Z) - Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text [0.0]
大規模言語モデルは、ゼロショット学習(ゼロショット学習)として知られる、教師付きトレーニングなしで文書に注釈を付けることができる。
本稿では、ゼロショットおよび少数ショットの政治文書分類のための政治DeBATE言語モデルを紹介する。
800以上の分類タスクに高度に正確なラベルを持つ20,000以上の政治文書からなるコーパスです。
論文 参考訳(メタデータ) (2024-09-03T17:26:17Z) - Trustless Audits without Revealing Data or Models [49.23322187919369]
モデルプロバイダが(アーキテクチャではなく)モデルウェイトとデータシークレットを維持しながら、他のパーティがモデルとデータプロパティを信頼性のない監査を行うことが可能であることを示す。
私たちはZkAuditと呼ばれるプロトコルを設計し、モデルプロバイダがデータセットとモデルの重みの暗号的コミットメントを公開します。
論文 参考訳(メタデータ) (2024-04-06T04:43:06Z) - Tracking the Newsworthiness of Public Documents [107.12303391111014]
この研究は、サンフランシスコ・クロニクル(San Francisco Chronicle)によるサンフランシスコ・ベイエリアにおける地方公共政策のニュース報道に焦点を当てている。
まず、新聞記事、公共政策文書、会議記録を収集し、確率的関係モデルを用いてそれらをリンクする。
第二に、ポリシー項目がカバーされるかどうかを予測するために、ニューズサステイネス予測という新しいタスクを定義します。
論文 参考訳(メタデータ) (2023-11-16T10:05:26Z) - The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora
with Web Data, and Web Data Only [48.498376125522114]
適切にフィルタリングされ、分離されたWebデータだけで、強力なモデルに繋がることを示す。
RefinedWebデータセットから600億のトークンの抽出と、それに基づいてトレーニングされた1.3/7.5Bパラメータ言語モデルをリリースします。
論文 参考訳(メタデータ) (2023-06-01T20:03:56Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Quantifying Political Bias in News Articles [0.15229257192293202]
我々は、オンラインニュース記事のイデオロギーバイアスを評価するための自動モデルを確立することを目指している。
現在の自動モデルの結果は、自動的に文書に注釈を付けるのにモデル機能を利用するには不十分であることを示している。
論文 参考訳(メタデータ) (2022-10-07T08:51:20Z) - OpenFraming: We brought the ML; you bring the data. Interact with your
data and discover its frames [13.695739582457872]
テキスト文書中のフレームを解析・分類する Web ベースのシステムを提案する。
我々は,様々な問題に関する最先端の事前学習フレーム分類モデルと,新規分類モデルの学習のためのユーザフレンドリなパイプラインを提供する。
私たちのシステムを構成するコードもオープンソースでドキュメント化されています。
論文 参考訳(メタデータ) (2020-08-16T18:59:30Z) - Zero-shot topic generation [10.609815608017065]
本稿では,文書タイトル生成にのみ訓練されたモデルを用いてトピックを生成する手法を提案する。
私たちは、そのドキュメントのタイトルを生成するために、ドキュメント内の候補の関連性をキャプチャする機能を活用します。
アウトプットは、文書を記述し、コーパス内でそれを区別するのに最も関係のあるフレーズの重み付けされたコレクションである。
論文 参考訳(メタデータ) (2020-04-29T04:39:28Z) - Generating Representative Headlines for News Stories [31.67864779497127]
同じ出来事をニュースに報告している記事のグループ化は、読者がニュースを消費するのを助ける一般的な方法である。
各ストーリーの代表的見出しを効率的かつ効果的に生成することは、依然として困難な研究課題である。
我々は,人間のアノテーションを使わずに大規模世代モデルを訓練するための遠隔監視手法を開発した。
論文 参考訳(メタデータ) (2020-01-26T02:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。