論文の概要: OPOR-Bench: Evaluating Large Language Models on Online Public Opinion Report Generation
- arxiv url: http://arxiv.org/abs/2512.01896v1
- Date: Mon, 01 Dec 2025 17:18:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.987439
- Title: OPOR-Bench: Evaluating Large Language Models on Online Public Opinion Report Generation
- Title(参考訳): OPOR-Bench: オンラインパブリックオピニオンレポート生成による大規模言語モデルの評価
- Authors: Jinzheng Yu, Yang Xu, Haozhen Li, Junqi Li, Yifan Feng, Ligu Zhu, Hao Shen, Lei Shi,
- Abstract要約: オンライン・パブリック・オピニオン・リポートは、政府や企業によるタイムリーな危機管理のために、ニュースとソーシャルメディアを統合している。
我々は、OPOR-GEN(Automated Online Opinion Report Generation)タスクを定義し、OPOR-BENCHを構築する。
報告の質を評価するために,提案するOPOR-EVALは,生成されたレポートを文脈で分析することで,人間の専門家による評価をシミュレートする新しいエージェントベースのフレームワークである。
- 参考スコア(独自算出の注目度): 20.39553661632366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online Public Opinion Reports consolidate news and social media for timely crisis management by governments and enterprises. While large language models have made automated report generation technically feasible, systematic research in this specific area remains notably absent, particularly lacking formal task definitions and corresponding benchmarks. To bridge this gap, we define the Automated Online Public Opinion Report Generation (OPOR-GEN) task and construct OPOR-BENCH, an event-centric dataset covering 463 crisis events with their corresponding news articles, social media posts, and a reference summary. To evaluate report quality, we propose OPOR-EVAL, a novel agent-based framework that simulates human expert evaluation by analyzing generated reports in context. Experiments with frontier models demonstrate that our framework achieves high correlation with human judgments. Our comprehensive task definition, benchmark dataset, and evaluation framework provide a solid foundation for future research in this critical domain.
- Abstract(参考訳): オンライン・パブリック・オピニオン・リポートは、政府や企業によるタイムリーな危機管理のために、ニュースとソーシャルメディアを統合している。
大規模言語モデルは、自動レポート生成を技術的に実現可能としたが、この特定の分野における体系的な研究は、特に正式なタスク定義とそれに対応するベンチマークが欠如している。
このギャップを埋めるために、我々はAutomated Online Public Opinion Report Generation (OPOR-GEN)タスクを定義し、OPOR-BENCHを構築する。
報告の質を評価するために,提案するOPOR-EVALは,生成されたレポートを文脈で分析することで,人間の専門家による評価をシミュレートする新しいエージェントベースのフレームワークである。
また,フロンティアモデルを用いた実験により,人間の判断と高い相関性が得られることを示した。
私たちの包括的なタスク定義、ベンチマークデータセット、評価フレームワークは、この重要な領域における将来の研究の確かな基盤を提供します。
関連論文リスト
- Towards Automated Situation Awareness: A RAG-Based Framework for Peacebuilding Reports [2.230742111425553]
本稿では,状況認識レポートを自律的に生成する動的検索・拡張生成システムを提案する。
本システムでは,要求に基づく問合せ固有の知識ベースを構築し,時間的,関連性,正確な洞察を確保する。
このシステムは、複数の実世界のシナリオでテストされ、一貫性があり、洞察力があり、実行可能なレポートを生成する効果を実証している。
論文 参考訳(メタデータ) (2025-05-14T16:36:30Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - On the Evaluation of Machine-Generated Reports [33.829781915978835]
大きな言語モデル(LLM)は、情報ニーズを満たす新しい方法を可能にしました。
これらの品質の報告は、ユーザの複雑な、ニュアンスのある、あるいは多面的な情報要求を満たすために必要である。
本稿では、自動レポート生成のためのビジョンと、そのようなレポートを評価可能なフレキシブルなフレームワークについて述べる。
論文 参考訳(メタデータ) (2024-05-02T03:35:23Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Glitter or Gold? Deriving Structured Insights from Sustainability
Reports via Large Language Models [16.231171704561714]
本研究では,企業のサステナビリティレポートからESGに関する構造化された洞察を抽出するために,情報抽出(IE)手法を用いる。
次に、グラフに基づく表現を活用して、抽出された洞察に関する統計的分析を行う。
論文 参考訳(メタデータ) (2023-10-09T11:34:41Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。