Fugu-MT 論文翻訳(概要): NewsBench: A Systematic Evaluation Framework for Assessing Editorial Capabilities of Large Language Models in Chinese Journalism

論文の概要: NewsBench: A Systematic Evaluation Framework for Assessing Editorial Capabilities of Large Language Models in Chinese Journalism

arxiv url: http://arxiv.org/abs/2403.00862v4
Date: Tue, 4 Jun 2024 14:50:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 10:48:12.974305
Title: NewsBench: A Systematic Evaluation Framework for Assessing Editorial Capabilities of Large Language Models in Chinese Journalism
Title（参考訳）: NewsBench: 中国語ジャーナリズムにおける大規模言語モデルの編集能力を評価するためのシステム評価フレームワーク
Authors: Miao Li, Ming-Bin Chen, Bo Tang, Shengbin Hou, Pengyu Wang, Haiying Deng, Zhiyu Li, Feiyu Xiong, Keming Mao, Peng Cheng, Yi Luo,
Abstract要約: 我々は,中国語ジャーナリズムにおける編集能力のための大規模言語モデル(LLM)の能力を体系的に評価する新しい評価フレームワークであるNewsBenchを提案する。構築したベンチマークデータセットは、筆記能力の4つの面と安全性の6つの面に焦点を当てている。本稿では,GPT-4をベースとした自動評価プロトコルを提案する。
参考スコア（独自算出の注目度）: 28.443004656952343
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present NewsBench, a novel evaluation framework to systematically assess the capabilities of Large Language Models (LLMs) for editorial capabilities in Chinese journalism. Our constructed benchmark dataset is focused on four facets of writing proficiency and six facets of safety adherence, and it comprises manually and carefully designed 1,267 test samples in the types of multiple choice questions and short answer questions for five editorial tasks in 24 news domains. To measure performances, we propose different GPT-4 based automatic evaluation protocols to assess LLM generations for short answer questions in terms of writing proficiency and safety adherence, and both are validated by the high correlations with human evaluations. Based on the systematic evaluation framework, we conduct a comprehensive analysis of ten popular LLMs which can handle Chinese. The experimental results highlight GPT-4 and ERNIE Bot as top performers, yet reveal a relative deficiency in journalistic safety adherence in creative writing tasks. Our findings also underscore the need for enhanced ethical guidance in machine-generated journalistic content, marking a step forward in aligning LLMs with journalistic standards and safety considerations.
Abstract（参考訳）: 我々は,中国語ジャーナリズムにおける編集能力のための大規模言語モデル(LLM)の能力を体系的に評価する新しい評価フレームワークであるNewsBenchを提案する。構築したベンチマークデータセットは,4面の筆記能力と6面の安全適合性に着目し,複数の選択質問のタイプで1,267個のテストサンプルを手作業で設計し,24のニュースドメインで5つの編集タスクに対して短い回答質問を行う。そこで本研究では,GPT-4をベースとした自動評価プロトコルを提案し,筆記能力と安全性の両面を高い相関関係で検証した。体系的な評価枠組みに基づき、中国語を処理できる10の人気のあるLLMを包括的に分析する。実験の結果, GPT-4とERNIE Botがトップパフォーマーとして注目されたが, クリエイティブな文章作成作業において, ジャーナリストの安全性が相対的に欠如していることが明らかになった。また,本研究は,LLMとジャーナリストの基準と安全配慮の整合化に向けた一歩として,機械によるジャーナリズムコンテンツにおける倫理的ガイダンスの強化の必要性を強調した。

関連論文リスト

Towards Holistic Evaluation of Large Audio-Language Models: A Comprehensive Survey [49.1574468325115]
我々は総合的な調査を行い、LALM評価のための体系的な分類法を提案する。各カテゴリの詳細な概要と,この分野の課題について紹介する。調査した論文の収集を公表し、現在進行中の分野の発展を支援するため、積極的に維持していく。
論文参考訳（メタデータ） (2025-05-21T19:17:29Z)
AI-Slop to AI-Polish? Aligning Language Models through Edit-Based Writing Rewards and Test-time Computation [39.00434175773803]
品質評価を書くことは、基本的に主観的で専門知識を必要とすることもあって、コミュニティから注目されるものが少なくなっている。まず、5つの書評データセットを4,729の書評判断に集約することで、書評品質ベンチマーク(WQ)を導入する。実験の結果、WQのランダムなベースラインよりも、推論タスクに優れる最先端のLLMを含む、競争力のあるベースラインの大半が、WQのランダムなベースラインよりも優れていることがわかった。そして、4つのアウト・オブ・ディストリビューション・テストセットと74%の精度で強力な一般化を示す書字品質評価のための様々なサイズの書字品質リワード・モデル(WQRM)を訓練する。
論文参考訳（メタデータ） (2025-04-10T07:58:05Z)
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。我々はEmbodiedBench内のプロプライエタリおよびオープンソースMLLMを24件評価した。 MLLMは高いレベルのタスクで優れるが、低レベルの操作に苦戦し、最高のモデルであるGPT-4oは平均28.9%のスコアしか獲得できなかった。
論文参考訳（メタデータ） (2025-02-13T18:11:34Z)
Measuring Large Language Models Capacity to Annotate Journalistic Sourcing [11.22185665245128]
本稿では,ニュース記事のソーシングの特定と注釈付けにおいて,大規模言語モデルを評価するシナリオについて述べる。我々の精度は、LLMベースのアプローチが、ストーリー内のすべてのソースステートメントを識別し、ソースのタイプを等しく一致させることで、より捕えられることを示唆している。
論文参考訳（メタデータ） (2024-12-30T22:15:57Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
Evaluating AI-Generated Essays with GRE Analytical Writing Assessment [15.993966092824335]
本研究は,10個のLLMが生成したエッセイを用いて,研究記録エグゼクティブ(GRE)の分析書面アセスメントについて検討する。我々はこれらのエッセイを、GREスコアリングパイプラインで用いられるように、人間のレーダとe-rater自動スコアリングエンジンの両方を用いて評価した。 GPT-4oは平均4.78点、GPT-4oは4.67点だった。
論文参考訳（メタデータ） (2024-10-22T21:30:58Z)
INDICT: Code Generation with Internal Dialogues of Critiques for Both Security and Helpfulness [110.6921470281479]
INDICTは、安全性と有用性の両方のガイダンスのために、批評家の内的対話で大きな言語モデルを強化する新しいフレームワークである。内部対話は、安全主導の批評家と役に立つ主導の批評家の二重協調システムである。提案手法は,安全性と有用性解析の両面において,高度な批判のレベルを提供し,出力コードの品質を著しく向上させる。
論文参考訳（メタデータ） (2024-06-23T15:55:07Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models [34.843603169616486]
大規模視覚言語モデル(VLM)のアライメント能力を評価するベンチマークであるAlignMMBenchを紹介する。このベンチマークは、現実世界のシナリオとインターネットソースから慎重にキュレートされ、シングルターンとマルチターンの対話シナリオを含む。また,GPT-4の評価能力を超えるルール校正評価器であるCristiqueVLMを開発した。
論文参考訳（メタデータ） (2024-06-13T16:30:14Z)
MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models [39.97454990633856]
本稿では,MLLMの多次元安全性評価スイートであるMLLMGuardを紹介する。バイリンガル画像テキスト評価データセット、推論ユーティリティ、軽量評価器が含まれている。 13種類の先進モデルに対する評価結果は,MLLMが安全かつ責任を負うことができるまでには,まだかなりの道のりを歩んでいることを示唆している。
論文参考訳（メタデータ） (2024-06-11T13:41:33Z)
Reading Subtext: Evaluating Large Language Models on Short Story Summarization with Writers [25.268709339109893]
我々は,最近のLarge Language Models (LLMs) について,短いストーリーを要約する難しい課題について評価する。私たちは著者と直接協力して、ストーリーがオンラインで共有されていないことを保証しています(従ってモデルによって見つからないのです)。 GPT-4、Claude-2.1、LLama-2-70Bを比較し、全3モデルが50%以上の要約で忠実さの誤りを犯していることを発見した。
論文参考訳（メタデータ） (2024-03-02T01:52:14Z)
Simple LLM Prompting is State-of-the-Art for Robust and Multilingual Dialogue Evaluation [7.767020408405403]
本稿では,既存の評価モデルの強みを生かして,大規模言語モデル(LLM)の促進という新たなパラダイムを提案する。実験により,本フレームワークは,いくつかのベンチマークにおいて,平均スピアマン相関スコアを用いて,技術結果の状態を達成していることを示す。
論文参考訳（メタデータ） (2023-08-31T15:19:28Z)
CValues: Measuring the Values of Chinese Large Language Models from Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2023-07-19T01:22:40Z)
Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。 LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文参考訳（メタデータ） (2023-06-07T06:29:58Z)
Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文参考訳（メタデータ） (2023-04-20T16:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。