論文の概要: Measuring Large Language Models Capacity to Annotate Journalistic Sourcing
- arxiv url: http://arxiv.org/abs/2501.00164v1
- Date: Mon, 30 Dec 2024 22:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:17:29.090388
- Title: Measuring Large Language Models Capacity to Annotate Journalistic Sourcing
- Title(参考訳): ジャーナリズム・サーシングに注釈をつけるための大規模言語モデルの測定
- Authors: Subramaniam Vincent, Phoebe Wang, Zhan Shi, Sahas Koka, Yi Fang,
- Abstract要約: 本稿では,ニュース記事のソーシングの特定と注釈付けにおいて,大規模言語モデルを評価するシナリオについて述べる。
我々の精度は、LLMベースのアプローチが、ストーリー内のすべてのソースステートメントを識別し、ソースのタイプを等しく一致させることで、より捕えられることを示唆している。
- 参考スコア(独自算出の注目度): 11.22185665245128
- License:
- Abstract: Since the launch of ChatGPT in late 2022, the capacities of Large Language Models and their evaluation have been in constant discussion and evaluation both in academic research and in the industry. Scenarios and benchmarks have been developed in several areas such as law, medicine and math (Bommasani et al., 2023) and there is continuous evaluation of model variants. One area that has not received sufficient scenario development attention is journalism, and in particular journalistic sourcing and ethics. Journalism is a crucial truth-determination function in democracy (Vincent, 2023), and sourcing is a crucial pillar to all original journalistic output. Evaluating the capacities of LLMs to annotate stories for the different signals of sourcing and how reporters justify them is a crucial scenario that warrants a benchmark approach. It offers potential to build automated systems to contrast more transparent and ethically rigorous forms of journalism with everyday fare. In this paper we lay out a scenario to evaluate LLM performance on identifying and annotating sourcing in news stories on a five-category schema inspired from journalism studies (Gans, 2004). We offer the use case, our dataset and metrics and as the first step towards systematic benchmarking. Our accuracy findings indicate LLM-based approaches have more catching to do in identifying all the sourced statements in a story, and equally, in matching the type of sources. An even harder task is spotting source justifications.
- Abstract(参考訳): 2022年後半のChatGPTの開始以来、大規模言語モデルの能力とその評価は、学術研究と産業の両方において絶え間なく議論され、評価されてきた。
シナリオとベンチマークは法、医学、数学などいくつかの分野で開発されており(Bommasani et al , 2023)、モデル変種を継続的に評価している。
十分なシナリオ開発の注目を集めていない分野はジャーナリズム、特にジャーナリズムのソーシングと倫理である。
ジャーナリズムは民主主義において重要な真理決定機能であり(Vincent, 2023)、ソーシングは全てのオリジナルのジャーナリストのアウトプットにとって重要な柱である。
LLMの能力を評価して、ソーシングの異なるシグナルに対するアノテートストーリーを評価し、レポーターがそれらを正当化する方法は、ベンチマークアプローチを保証する重要なシナリオである。
より透明で倫理的に厳格なジャーナリズムと日々の運賃を対比する自動化システムを構築することができる。
本稿では,ジャーナリズム研究にインスパイアされた5カテゴリのスキーマを用いて,ニュース記事のソーシングを識別し,注釈付けする上でのLCM性能を評価するシナリオについて述べる(Gans,2004)。
ユースケース、データセットとメトリクスを提供し、システマティックなベンチマークへの第一歩として提供します。
我々の精度は、LLMベースのアプローチが、ストーリー内のすべてのソースステートメントを識別し、ソースのタイプを等しく一致させることで、より捕えられることを示唆している。
さらに難しいのは、ソースの正当性を突き止めることです。
関連論文リスト
- A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Enhancing Journalism with AI: A Study of Contextualized Image Captioning for News Articles using LLMs and LMMs [2.1165011830664673]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)はAIコミュニティに大きな影響を与えている。
本研究では,LLMとLMMが,ニュース記事に付随する画像の文脈的キャプションを生成することによって,ジャーナリストの実践を支援する方法について検討する。
論文 参考訳(メタデータ) (2024-08-08T09:31:24Z) - Developing Story: Case Studies of Generative AI's Use in Journalism [18.67676679963561]
本研究では、WildChatデータセットを閲覧することで、2つの報道機関によるジャーナリストとAIのインタラクションの研究を行う。
本稿では,ジャーナリストが他の機関からの資料や記事との機密通信などの機密資料をLCMに送付し,記事作成を促す事例を明らかにする。
本稿では,AIの活用に責任を負うものに関するさらなる研究と,ジャーナリストの文脈でLLMを使用するための明確なガイドラインとベストプラクティスの確立を求めている。
論文 参考訳(メタデータ) (2024-06-19T16:58:32Z) - NewsBench: A Systematic Evaluation Framework for Assessing Editorial Capabilities of Large Language Models in Chinese Journalism [28.443004656952343]
我々は,中国語ジャーナリズムにおける編集能力のための大規模言語モデル(LLM)の能力を体系的に評価する新しい評価フレームワークであるNewsBenchを提案する。
構築したベンチマークデータセットは、筆記能力の4つの面と安全性の6つの面に焦点を当てている。
本稿では,GPT-4をベースとした自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2024-02-29T21:05:14Z) - Maintaining Journalistic Integrity in the Digital Age: A Comprehensive
NLP Framework for Evaluating Online News Content [0.0]
本稿では,自然言語処理(NLP)技術を用いて,オンラインニューステキストの分析を行う包括的フレームワークを提案する。
このフレームワークには10のジャーナリズム標準、バランスと公正性、読みやすさと明快さ、センセーショナルとクリックベイト、倫理的考察、公共の関心と価値、情報源の信頼性、妥当性とタイムライン、事実の正確性、帰属と透明性が含まれる。
論文 参考訳(メタデータ) (2024-01-07T12:27:14Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Identifying Informational Sources in News Articles [109.70475599552523]
我々は、ニュース執筆に使用される情報ソースの、最大かつ最も広範囲にアノテートされたデータセットを構築した。
本稿では,ニュース記事中のソースの構成性を研究するための新しいタスクであるソース予測を導入する。
論文 参考訳(メタデータ) (2023-05-24T08:56:35Z) - Framing the News:From Human Perception to Large Language Model
Inferences [8.666172545138272]
ニュースのフレームを特定することは、記事のビジョン、意図、伝達すべきメッセージ、ニュースのどの側面が強調されるかを理解するために重要である。
我々は,5カ国のヨーロッパの新聞のノヴァックス運動記事の1786年の見出しに,フレームの人為的ラベル付けのためのプロトコルを開発した。
まず, GPT-3.5 の微調整手法と, GPT-3.5 のプロンプトエンジニアリング手法の2つの手法について検討した。
論文 参考訳(メタデータ) (2023-04-27T18:30:18Z) - Towards Corpus-Scale Discovery of Selection Biases in News Coverage:
Comparing What Sources Say About Entities as a Start [65.28355014154549]
本稿では,大規模ニュースコーパスにおけるニュースコンテンツから直接メディア選択バイアスのパターンを発見するために,スケーラブルなNLPシステムを構築する上での課題について検討する。
我々は,世界519のニュースソースから180万件のニュース記事のコーパスであるNELA-2020のケーススタディを通じて,フレームワークの能力を示す。
論文 参考訳(メタデータ) (2023-04-06T23:36:45Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z) - "Don't quote me on that": Finding Mixtures of Sources in News Articles [85.92467549469147]
各ソースのtextitaffiliationとtextitroleに基づいてソースのオントロジーラベリングシステムを構築します。
これらの属性を名前付きソースに推論し、ニュース記事をこれらのソースの混合物として記述する確率モデルを構築します。
論文 参考訳(メタデータ) (2021-04-19T21:57:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。