論文の概要: NewsBench: Systematic Evaluation of LLMs for Writing Proficiency and
Safety Adherence in Chinese Journalistic Editorial Applications
- arxiv url: http://arxiv.org/abs/2403.00862v1
- Date: Thu, 29 Feb 2024 21:05:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 16:16:09.657741
- Title: NewsBench: Systematic Evaluation of LLMs for Writing Proficiency and
Safety Adherence in Chinese Journalistic Editorial Applications
- Title(参考訳): NewsBench:中国のジャーナリズム編集応用における筆記能力と安全性向上のためのLCMの体系的評価
- Authors: Miao Li and Ming-Bin Chen and Bo Tang and Shengbin Hou and Pengyu Wang
and Haiying Deng and Zhiyu Li and Feiyu Xiong and Keming Mao and Peng Cheng
and Yi Luo
- Abstract要約: 本研究では,中国語ジャーナリスティック・ライティング(JWP)におけるLarge Language Models(LLM)の能力を評価するために開発された,新しいベンチマークフレームワークであるNewsBenchを提案する。
GPT-4, ERNIE Botをトップパフォーマーとして紹介したが, クリエイティブな執筆作業において, ジャーナリストの倫理的順守が比較的欠如していることが判明した。
これらの発見は、AIが生成するジャーナリストコンテンツにおける倫理的ガイダンスの強化の必要性を強調しており、AI能力をジャーナリストの基準と安全に関する考慮に合わせるための一歩である。
- 参考スコア(独自算出の注目度): 29.289558248262843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents NewsBench, a novel benchmark framework developed to
evaluate the capability of Large Language Models (LLMs) in Chinese Journalistic
Writing Proficiency (JWP) and their Safety Adherence (SA), addressing the gap
between journalistic ethics and the risks associated with AI utilization.
Comprising 1,267 tasks across 5 editorial applications, 7 aspects (including
safety and journalistic writing with 4 detailed facets), and spanning 24 news
topics domains, NewsBench employs two GPT-4 based automatic evaluation
protocols validated by human assessment. Our comprehensive analysis of 11 LLMs
highlighted GPT-4 and ERNIE Bot as top performers, yet revealed a relative
deficiency in journalistic ethic adherence during creative writing tasks. These
findings underscore the need for enhanced ethical guidance in AI-generated
journalistic content, marking a step forward in aligning AI capabilities with
journalistic standards and safety considerations.
- Abstract(参考訳): 本研究は,中国ジャーナリズム書記熟練度(JWP)におけるLarge Language Models(LLMs)の能力と,ジャーナリズム倫理とAI利用に伴うリスクとのギャップに対処するために開発された,新たなベンチマークフレームワークであるNewsBenchを提案する。
5つの編集アプリケーションにわたる1,267のタスクと7つの側面(安全性と4つの詳細なファセットを持つジャーナリストの執筆を含む)、24のニューストピックドメインを含むNewsBenchは、2つのGPT-4ベースの自動評価プロトコルを人間の評価によって検証している。
GPT-4, ERNIE Botをトップパフォーマーとして紹介したが, クリエイティブな執筆作業において, ジャーナリストの倫理的順守が比較的不十分であった。
これらの発見は、AIが生成するジャーナリストコンテンツにおける倫理的ガイダンスの強化の必要性を強調しており、AI能力をジャーナリストの基準と安全に関する考慮に合わせるための一歩である。
関連論文リスト
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Evaluating AI-Generated Essays with GRE Analytical Writing Assessment [15.993966092824335]
本研究は,10個のLLMが生成したエッセイを用いて,研究記録エグゼクティブ(GRE)の分析書面アセスメントについて検討する。
我々はこれらのエッセイを、GREスコアリングパイプラインで用いられるように、人間のレーダとe-rater自動スコアリングエンジンの両方を用いて評価した。
GPT-4oは平均4.78点、GPT-4oは4.67点だった。
論文 参考訳(メタデータ) (2024-10-22T21:30:58Z) - INDICT: Code Generation with Internal Dialogues of Critiques for Both Security and Helpfulness [110.6921470281479]
INDICTは、安全性と有用性の両方のガイダンスのために、批評家の内的対話で大きな言語モデルを強化する新しいフレームワークである。
内部対話は、安全主導の批評家と役に立つ主導の批評家の二重協調システムである。
提案手法は,安全性と有用性解析の両面において,高度な批判のレベルを提供し,出力コードの品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-23T15:55:07Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models [39.97454990633856]
本稿では,MLLMの多次元安全性評価スイートであるMLLMGuardを紹介する。
バイリンガル画像テキスト評価データセット、推論ユーティリティ、軽量評価器が含まれている。
13種類の先進モデルに対する評価結果は,MLLMが安全かつ責任を負うことができるまでには,まだかなりの道のりを歩んでいることを示唆している。
論文 参考訳(メタデータ) (2024-06-11T13:41:33Z) - Reading Subtext: Evaluating Large Language Models on Short Story Summarization with Writers [25.268709339109893]
我々は,最近のLarge Language Models (LLMs) について,短いストーリーを要約する難しい課題について評価する。
私たちは著者と直接協力して、ストーリーがオンラインで共有されていないことを保証しています(従ってモデルによって見つからないのです)。
GPT-4、Claude-2.1、LLama-2-70Bを比較し、全3モデルが50%以上の要約で忠実さの誤りを犯していることを発見した。
論文 参考訳(メタデータ) (2024-03-02T01:52:14Z) - Simple LLM Prompting is State-of-the-Art for Robust and Multilingual
Dialogue Evaluation [7.767020408405403]
本稿では,既存の評価モデルの強みを生かして,大規模言語モデル(LLM)の促進という新たなパラダイムを提案する。
実験により,本フレームワークは,いくつかのベンチマークにおいて,平均スピアマン相関スコアを用いて,技術結果の状態を達成していることを示す。
論文 参考訳(メタデータ) (2023-08-31T15:19:28Z) - CValues: Measuring the Values of Chinese Large Language Models from
Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。
その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。
以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2023-07-19T01:22:40Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。