論文の概要: NewsBench: Systematic Evaluation of LLMs for Writing Proficiency and Safety Adherence in Chinese Journalistic Editorial Applications
- arxiv url: http://arxiv.org/abs/2403.00862v2
- Date: Thu, 21 Mar 2024 10:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 18:58:05.402961
- Title: NewsBench: Systematic Evaluation of LLMs for Writing Proficiency and Safety Adherence in Chinese Journalistic Editorial Applications
- Title(参考訳): NewsBench:中国のジャーナリズム編集応用における筆記能力と安全性向上のためのLCMの体系的評価
- Authors: Miao Li, Ming-Bin Chen, Bo Tang, Shengbin Hou, Pengyu Wang, Haiying Deng, Zhiyu Li, Feiyu Xiong, Keming Mao, Peng Cheng, Yi Luo,
- Abstract要約: 本研究では,中国語ジャーナリスティック・ライティング(JWP)におけるLarge Language Models(LLM)の能力を評価するために開発された,新しいベンチマークフレームワークであるNewsBenchを提案する。
GPT-4とERNIE Botをトップパフォーマーとして強調した10個のLCMの包括的分析から,クリエイティブな文章作成作業において,ジャーナリストの倫理的順守が比較的欠如していることが判明した。
これらの発見は、AIが生成するジャーナリストコンテンツにおける倫理的ガイダンスの強化の必要性を強調しており、AI能力をジャーナリストの基準と安全に関する考慮に合わせるための一歩である。
- 参考スコア(独自算出の注目度): 28.443004656952343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents NewsBench, a novel benchmark framework developed to evaluate the capability of Large Language Models (LLMs) in Chinese Journalistic Writing Proficiency (JWP) and their Safety Adherence (SA), addressing the gap between journalistic ethics and the risks associated with AI utilization. Comprising 1,267 tasks across 5 editorial applications, 7 aspects (including safety and journalistic writing with 4 detailed facets), and spanning 24 news topics domains, NewsBench employs two GPT-4 based automatic evaluation protocols validated by human assessment. Our comprehensive analysis of 10 LLMs highlighted GPT-4 and ERNIE Bot as top performers, yet revealed a relative deficiency in journalistic ethic adherence during creative writing tasks. These findings underscore the need for enhanced ethical guidance in AI-generated journalistic content, marking a step forward in aligning AI capabilities with journalistic standards and safety considerations.
- Abstract(参考訳): 本研究は,中国のジャーナリズム書記能力(JWP)におけるLarge Language Models(LLMs)の能力と,ジャーナリズム倫理とAI利用に伴うリスクとのギャップに対処するための,新たなベンチマークフレームワークであるNewsBenchを提案する。
5つの編集アプリケーションにわたる1,267のタスクと7つの側面(安全性と4つの詳細なファセットを持つジャーナリストの執筆を含む)、24のニューストピックドメインを含むNewsBenchでは、人間の評価によって検証された2つのGPT-4ベースの自動評価プロトコルが採用されている。
GPT-4とERNIE Botをトップパフォーマーとして強調した10個のLCMの包括的分析から,クリエイティブな文章作成作業において,ジャーナリストの倫理的順守が比較的欠如していることが判明した。
これらの発見は、AIが生成するジャーナリストコンテンツにおける倫理的ガイダンスの強化の必要性を強調しており、AI能力をジャーナリストの基準と安全に関する考慮に合わせるための一歩である。
関連論文リスト
- ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Five ethical principles for generative AI in scientific research [0.0]
生成する人工知能ツールは、学術研究と現実世界の応用を急速に変えつつある。
本稿では,5つのテーマにまたがる分析と緩和戦略を開発することで,最初の枠組みを提供する。
我々は、専門家のトレーニングと合理的な執行と組み合わせたグローバルコンセンサスが、研究の完全性を守りながら、AIのメリットを促進する上で重要であると論じている。
論文 参考訳(メタデータ) (2024-01-27T03:53:25Z) - Maintaining Journalistic Integrity in the Digital Age: A Comprehensive
NLP Framework for Evaluating Online News Content [0.0]
本稿では,自然言語処理(NLP)技術を用いて,オンラインニューステキストの分析を行う包括的フレームワークを提案する。
このフレームワークには10のジャーナリズム標準、バランスと公正性、読みやすさと明快さ、センセーショナルとクリックベイト、倫理的考察、公共の関心と価値、情報源の信頼性、妥当性とタイムライン、事実の正確性、帰属と透明性が含まれる。
論文 参考訳(メタデータ) (2024-01-07T12:27:14Z) - J-Guard: Journalism Guided Adversarially Robust Detection of
AI-generated News [12.633638679020903]
我々は、AI生成ニュースを検出するために、既存の教師付きAIテキスト検出器を操ることのできるフレームワーク、J-Guardを開発した。
J-Guardは、ユニークなジャーナリストの属性にインスパイアされたスタイリスティックなヒントを取り入れることで、現実のジャーナリズムとAI生成のニュース記事とを効果的に区別する。
論文 参考訳(メタデータ) (2023-09-06T17:06:31Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z) - Overview of Robust and Multilingual Automatic Evaluation Metrics for
Open-Domain Dialogue Systems at DSTC 11 Track 4 [51.142614461563184]
第11回対話システム技術チャレンジ(DSTC11)のこのトラックは、堅牢で多言語による自動評価のメトリクスを促進するために進行中の取り組みの一部である。
本稿では、参加者に提供するデータセットとベースラインについて述べ、提案した2つのサブタスクの提出と結果の詳細について論じる。
論文 参考訳(メタデータ) (2023-06-22T10:50:23Z) - Applying Standards to Advance Upstream & Downstream Ethics in Large
Language Models [0.0]
本稿では,AIが生成するコンテンツの保護をAI所有者がいかに開発できるかを考察する。
他のコンテンツ制作業界では、行動規範や倫理基準が確立されている。
論文 参考訳(メタデータ) (2023-06-06T08:47:42Z) - Framing the News:From Human Perception to Large Language Model
Inferences [8.666172545138272]
ニュースのフレームを特定することは、記事のビジョン、意図、伝達すべきメッセージ、ニュースのどの側面が強調されるかを理解するために重要である。
我々は,5カ国のヨーロッパの新聞のノヴァックス運動記事の1786年の見出しに,フレームの人為的ラベル付けのためのプロトコルを開発した。
まず, GPT-3.5 の微調整手法と, GPT-3.5 のプロンプトエンジニアリング手法の2つの手法について検討した。
論文 参考訳(メタデータ) (2023-04-27T18:30:18Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z) - NewsEdits: A News Article Revision Dataset and a Document-Level
Reasoning Challenge [122.37011526554403]
NewsEditsは、最初に公開されたニュースリビジョン履歴のデータセットである。
120万記事と、22以上の英語とフランス語の新聞ソースから460万バージョンを収録している。
論文 参考訳(メタデータ) (2022-06-14T18:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。