Fugu-MT 論文翻訳(概要): NewsBench: Systematic Evaluation of LLMs for Writing Proficiency and Safety Adherence in Chinese Journalistic Editorial Applications

論文の概要: NewsBench: Systematic Evaluation of LLMs for Writing Proficiency and Safety Adherence in Chinese Journalistic Editorial Applications

arxiv url: http://arxiv.org/abs/2403.00862v2
Date: Thu, 21 Mar 2024 10:14:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 18:58:05.402961
Title: NewsBench: Systematic Evaluation of LLMs for Writing Proficiency and Safety Adherence in Chinese Journalistic Editorial Applications
Title（参考訳）: NewsBench:中国のジャーナリズム編集応用における筆記能力と安全性向上のためのLCMの体系的評価
Authors: Miao Li, Ming-Bin Chen, Bo Tang, Shengbin Hou, Pengyu Wang, Haiying Deng, Zhiyu Li, Feiyu Xiong, Keming Mao, Peng Cheng, Yi Luo,
Abstract要約: 本研究では,中国語ジャーナリスティック・ライティング(JWP)におけるLarge Language Models(LLM)の能力を評価するために開発された,新しいベンチマークフレームワークであるNewsBenchを提案する。 GPT-4とERNIE Botをトップパフォーマーとして強調した10個のLCMの包括的分析から,クリエイティブな文章作成作業において,ジャーナリストの倫理的順守が比較的欠如していることが判明した。これらの発見は、AIが生成するジャーナリストコンテンツにおける倫理的ガイダンスの強化の必要性を強調しており、AI能力をジャーナリストの基準と安全に関する考慮に合わせるための一歩である。
参考スコア（独自算出の注目度）: 28.443004656952343
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study presents NewsBench, a novel benchmark framework developed to evaluate the capability of Large Language Models (LLMs) in Chinese Journalistic Writing Proficiency (JWP) and their Safety Adherence (SA), addressing the gap between journalistic ethics and the risks associated with AI utilization. Comprising 1,267 tasks across 5 editorial applications, 7 aspects (including safety and journalistic writing with 4 detailed facets), and spanning 24 news topics domains, NewsBench employs two GPT-4 based automatic evaluation protocols validated by human assessment. Our comprehensive analysis of 10 LLMs highlighted GPT-4 and ERNIE Bot as top performers, yet revealed a relative deficiency in journalistic ethic adherence during creative writing tasks. These findings underscore the need for enhanced ethical guidance in AI-generated journalistic content, marking a step forward in aligning AI capabilities with journalistic standards and safety considerations.
Abstract（参考訳）: 本研究は,中国のジャーナリズム書記能力(JWP)におけるLarge Language Models(LLMs)の能力と,ジャーナリズム倫理とAI利用に伴うリスクとのギャップに対処するための,新たなベンチマークフレームワークであるNewsBenchを提案する。 5つの編集アプリケーションにわたる1,267のタスクと7つの側面(安全性と4つの詳細なファセットを持つジャーナリストの執筆を含む)、24のニューストピックドメインを含むNewsBenchでは、人間の評価によって検証された2つのGPT-4ベースの自動評価プロトコルが採用されている。 GPT-4とERNIE Botをトップパフォーマーとして強調した10個のLCMの包括的分析から,クリエイティブな文章作成作業において,ジャーナリストの倫理的順守が比較的欠如していることが判明した。これらの発見は、AIが生成するジャーナリストコンテンツにおける倫理的ガイダンスの強化の必要性を強調しており、AI能力をジャーナリストの基準と安全に関する考慮に合わせるための一歩である。

関連論文リスト

OpenNovelty: An LLM-powered Agentic System for Verifiable Scholarly Novelty Assessment [63.662126457336534]
OpenNoveltyは、透明で証拠に基づく新規性分析のためのエージェントシステムである。回収された実論文のすべての評価を根拠にし、検証可能な判断を確実にする。 OpenNoveltyは、公正で一貫性があり、エビデンスに支えられたピアレビューを促進するスケーラブルなツールで、研究コミュニティに力を与えることを目指している。
論文参考訳（メタデータ） (2026-01-04T15:48:51Z)
OutSafe-Bench: A Benchmark for Multimodal Offensive Content Detection in Large Language Models [54.80460603255789]
マルチモーダル時代に設計された,最も包括的なコンテンツ安全性評価テストスイートであるOutSafe-Benchを紹介する。 OutSafe-Benchには、4つのモダリティにまたがる大規模なデータセットが含まれており、18,000以上のバイリンガル(中国語と英語)テキストプロンプト、4500のイメージ、450のオーディオクリップ、450のビデオが9つの重要なコンテンツリスクカテゴリで体系的に注釈付けされている。このデータセットに加えて,多次元クロスリスクスコア(Multidimensional Cross Risk Score, MCRS)も導入した。
論文参考訳（メタデータ） (2025-11-13T13:18:27Z)
CDTP: A Large-Scale Chinese Data-Text Pair Dataset for Comprehensive Evaluation of Chinese LLMs [71.01843542502438]
我々は,中国語大言語モデル(CB-ECLLM)を評価するための総合的ベンチマークを提案する。 CB-ECLLMは、新たに構築された中国データテキストペア(CDTP)データセットに基づいている。 CDTPは700万以上のテキストペアで構成されており、それぞれが1つ以上の対応する3重テキストと、4つの重要なドメインにまたがる合計1500万の3重テキストで構成されている。
論文参考訳（メタデータ） (2025-10-07T15:33:52Z)
MMReview: A Multidisciplinary and Multimodal Benchmark for LLM-Based Peer Review Automation [24.759077885472678]
大きな言語モデル(LLM)は、レビューコメントの生成を支援するために、ますます採用されている。現在のLLMベースのレビュータスクは、包括的な、正確で、人間に沿ったアセスメントを生成するモデルの能力を厳格に評価するための統一された評価ベンチマークを欠いている。我々は、複数の分野とモダリティにまたがる包括的なベンチマークである textbfMMReview を提案する。
論文参考訳（メタデータ） (2025-08-19T16:37:19Z)
Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文参考訳（メタデータ） (2025-08-11T13:08:07Z)
Towards Holistic Evaluation of Large Audio-Language Models: A Comprehensive Survey [49.1574468325115]
我々は総合的な調査を行い、LALM評価のための体系的な分類法を提案する。各カテゴリの詳細な概要と,この分野の課題について紹介する。調査した論文の収集を公表し、現在進行中の分野の発展を支援するため、積極的に維持していく。
論文参考訳（メタデータ） (2025-05-21T19:17:29Z)
AI-Slop to AI-Polish? Aligning Language Models through Edit-Based Writing Rewards and Test-time Computation [39.00434175773803]
品質評価を書くことは、基本的に主観的で専門知識を必要とすることもあって、コミュニティから注目されるものが少なくなっている。まず、5つの書評データセットを4,729の書評判断に集約することで、書評品質ベンチマーク(WQ)を導入する。実験の結果、WQのランダムなベースラインよりも、推論タスクに優れる最先端のLLMを含む、競争力のあるベースラインの大半が、WQのランダムなベースラインよりも優れていることがわかった。そして、4つのアウト・オブ・ディストリビューション・テストセットと74%の精度で強力な一般化を示す書字品質評価のための様々なサイズの書字品質リワード・モデル(WQRM)を訓練する。
論文参考訳（メタデータ） (2025-04-10T07:58:05Z)
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。我々はEmbodiedBench内のプロプライエタリおよびオープンソースMLLMを24件評価した。 MLLMは高いレベルのタスクで優れるが、低レベルの操作に苦戦し、最高のモデルであるGPT-4oは平均28.9%のスコアしか獲得できなかった。
論文参考訳（メタデータ） (2025-02-13T18:11:34Z)
Measuring Large Language Models Capacity to Annotate Journalistic Sourcing [11.22185665245128]
本稿では,ニュース記事のソーシングの特定と注釈付けにおいて,大規模言語モデルを評価するシナリオについて述べる。我々の精度は、LLMベースのアプローチが、ストーリー内のすべてのソースステートメントを識別し、ソースのタイプを等しく一致させることで、より捕えられることを示唆している。
論文参考訳（メタデータ） (2024-12-30T22:15:57Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
Evaluating AI-Generated Essays with GRE Analytical Writing Assessment [15.993966092824335]
本研究は,10個のLLMが生成したエッセイを用いて,研究記録エグゼクティブ(GRE)の分析書面アセスメントについて検討する。我々はこれらのエッセイを、GREスコアリングパイプラインで用いられるように、人間のレーダとe-rater自動スコアリングエンジンの両方を用いて評価した。 GPT-4oは平均4.78点、GPT-4oは4.67点だった。
論文参考訳（メタデータ） (2024-10-22T21:30:58Z)
INDICT: Code Generation with Internal Dialogues of Critiques for Both Security and Helpfulness [110.6921470281479]
INDICTは、安全性と有用性の両方のガイダンスのために、批評家の内的対話で大きな言語モデルを強化する新しいフレームワークである。内部対話は、安全主導の批評家と役に立つ主導の批評家の二重協調システムである。提案手法は,安全性と有用性解析の両面において,高度な批判のレベルを提供し,出力コードの品質を著しく向上させる。
論文参考訳（メタデータ） (2024-06-23T15:55:07Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models [34.843603169616486]
大規模視覚言語モデル(VLM)のアライメント能力を評価するベンチマークであるAlignMMBenchを紹介する。このベンチマークは、現実世界のシナリオとインターネットソースから慎重にキュレートされ、シングルターンとマルチターンの対話シナリオを含む。また,GPT-4の評価能力を超えるルール校正評価器であるCristiqueVLMを開発した。
論文参考訳（メタデータ） (2024-06-13T16:30:14Z)
MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models [39.97454990633856]
本稿では,MLLMの多次元安全性評価スイートであるMLLMGuardを紹介する。バイリンガル画像テキスト評価データセット、推論ユーティリティ、軽量評価器が含まれている。 13種類の先進モデルに対する評価結果は,MLLMが安全かつ責任を負うことができるまでには,まだかなりの道のりを歩んでいることを示唆している。
論文参考訳（メタデータ） (2024-06-11T13:41:33Z)
Reading Subtext: Evaluating Large Language Models on Short Story Summarization with Writers [25.268709339109893]
我々は,最近のLarge Language Models (LLMs) について,短いストーリーを要約する難しい課題について評価する。私たちは著者と直接協力して、ストーリーがオンラインで共有されていないことを保証しています(従ってモデルによって見つからないのです)。 GPT-4、Claude-2.1、LLama-2-70Bを比較し、全3モデルが50%以上の要約で忠実さの誤りを犯していることを発見した。
論文参考訳（メタデータ） (2024-03-02T01:52:14Z)
Simple LLM Prompting is State-of-the-Art for Robust and Multilingual Dialogue Evaluation [7.767020408405403]
本稿では,既存の評価モデルの強みを生かして,大規模言語モデル(LLM)の促進という新たなパラダイムを提案する。実験により,本フレームワークは,いくつかのベンチマークにおいて,平均スピアマン相関スコアを用いて,技術結果の状態を達成していることを示す。
論文参考訳（メタデータ） (2023-08-31T15:19:28Z)
CValues: Measuring the Values of Chinese Large Language Models from Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2023-07-19T01:22:40Z)
Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。 LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文参考訳（メタデータ） (2023-06-07T06:29:58Z)
Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文参考訳（メタデータ） (2023-04-20T16:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。