論文の概要: NEWSAGENT: Benchmarking Multimodal Agents as Journalists with Real-World Newswriting Tasks
- arxiv url: http://arxiv.org/abs/2509.00446v1
- Date: Sat, 30 Aug 2025 10:31:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.235207
- Title: NEWSAGENT: Benchmarking Multimodal Agents as Journalists with Real-World Newswriting Tasks
- Title(参考訳): NEWSAGENT: リアルタイムニュース作成タスクを用いたジャーナリストとしてのマルチモーダルエージェントのベンチマーク
- Authors: Yen-Che Chien, Kuang-Da Wang, Wei-Yao Wang, Wen-Chih Peng,
- Abstract要約: NEWSAGENTは、エージェントが利用可能な生のコンテンツを自動的に検索し、望ましい情報を選択し、ニュース記事の編集とリフレーズを行う方法を評価するためのベンチマークである。
NEWSAGENTには、実際のニュースから派生した6kの人間による検証例が含まれており、マルチモーダルコンテンツは、幅広いモデル互換性のためにテキストに変換される。
NEWSAGENTは、マルチモーダルなWebデータ操作から現実の生産性まで、エージェント機能を反復し評価するための現実的なテストベッドであると考えています。
- 参考スコア(独自算出の注目度): 21.577527868033343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in autonomous digital agents from industry (e.g., Manus AI and Gemini's research mode) highlight potential for structured tasks by autonomous decision-making and task decomposition; however, it remains unclear to what extent the agent-based systems can improve multimodal web data productivity. We study this in the realm of journalism, which requires iterative planning, interpretation, and contextual reasoning from multimodal raw contents to form a well structured news. We introduce NEWSAGENT, a benchmark for evaluating how agents can automatically search available raw contents, select desired information, and edit and rephrase to form a news article by accessing core journalistic functions. Given a writing instruction and firsthand data as how a journalist initiates a news draft, agents are tasked to identify narrative perspectives, issue keyword-based queries, retrieve historical background, and generate complete articles. Unlike typical summarization or retrieval tasks, essential context is not directly available and must be actively discovered, reflecting the information gaps faced in real-world news writing. NEWSAGENT includes 6k human-verified examples derived from real news, with multimodal contents converted to text for broad model compatibility. We evaluate open- and closed-sourced LLMs with commonly-used agentic frameworks on NEWSAGENT, which shows that agents are capable of retrieving relevant facts but struggling with planning and narrative integration. We believe that NEWSAGENT serves a realistic testbed for iterating and evaluating agent capabilities in terms of multimodal web data manipulation to real-world productivity.
- Abstract(参考訳): 産業からの自律型デジタルエージェント(例えば、Manus AIとGeminiの研究モード)の最近の進歩は、自律的な意思決定とタスクの分解による構造化されたタスクの可能性を強調しているが、エージェントベースのシステムがマルチモーダルなWebデータ生産性をどの程度改善できるかは不明だ。
我々はこれをジャーナリズムの領域で研究し、多モーダルな生コンテンツから反復的な計画、解釈、文脈的推論を必要とし、よく構造化されたニュースを形成する。
NEWSAGENTは、エージェントが利用可能な生コンテンツを自動的に検索し、希望する情報を選択し、ニュース記事の編集とリフレクションを、コアジャーナリスト機能にアクセスして行う方法を評価するためのベンチマークである。
ジャーナリストがニュースドラフトの開始方法として書き方と手書きのデータを与えられた場合、エージェントは物語の視点を特定し、キーワードベースのクエリを発行し、過去の背景を検索し、完全な記事を生成する。
一般的な要約タスクや検索タスクとは異なり、本質的なコンテキストは直接利用できず、現実のニュース執筆で直面する情報のギャップを反映して、積極的に発見されなければならない。
NEWSAGENTには、実際のニュースから派生した6kの人間による検証例が含まれており、マルチモーダルコンテンツは、幅広いモデル互換性のためにテキストに変換される。
我々は、NEWSAGENT上で一般的に使われているエージェントフレームワークを用いて、オープンソースおよびクローズドソースのLLMを評価し、エージェントが関連する事実を検索できるが、計画や物語の統合に苦慮していることを示す。
NEWSAGENTは,マルチモーダルなWebデータ操作から実世界の生産性まで,エージェント機能を反復し,評価するための現実的なテストベッドとして機能すると考えている。
関連論文リスト
- From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - A Python Tool for Reconstructing Full News Text from GDELT [0.0]
本稿では,新聞記事の全文をほぼゼロのコストで入手するための新しいアプローチを提案する。
我々は,グローバルオンラインニュースソースから抽出したn-gramの高頻度更新を提供するGDELT Web News NGrams 3.0データセットに注目した。
重なり合うテキストフラグメントを識別し、インテリジェントにマージすることで、これらのn-gramからフルテキストの記事を再構築するPythonコードを提供します。
論文 参考訳(メタデータ) (2025-04-22T17:40:42Z) - Measuring Large Language Models Capacity to Annotate Journalistic Sourcing [11.22185665245128]
本稿では,ニュース記事のソーシングの特定と注釈付けにおいて,大規模言語モデルを評価するシナリオについて述べる。
我々の精度は、LLMベースのアプローチが、ストーリー内のすべてのソースステートメントを識別し、ソースのタイプを等しく一致させることで、より捕えられることを示唆している。
論文 参考訳(メタデータ) (2024-12-30T22:15:57Z) - Online Digital Investigative Journalism using SociaLens [0.0]
オンラインソースからクエリ特定データを特定し,抽出するための,多目的かつ自律的な調査ジャーナリズムツールである em SociaLens を導入している。
我々は、調査ジャーナリズム、法執行、社会政策計画におけるその利用を構想する。
発展途上国におけるレイプ事件を事例として,SociaLensの機能について考察した。
論文 参考訳(メタデータ) (2024-10-13T07:20:47Z) - SciNews: From Scholarly Complexities to Public Narratives -- A Dataset for Scientific News Report Generation [16.61347730523143]
我々は、科学ニュースの自動生成を容易にするための新しいコーパスを提示する。
本データセットは,9分野にわたる学術出版物と,それに対応する科学報告から構成される。
我々は、最先端のテキスト生成モデルを用いてデータセットをベンチマークする。
論文 参考訳(メタデータ) (2024-03-26T14:54:48Z) - Identifying Informational Sources in News Articles [109.70475599552523]
我々は、ニュース執筆に使用される情報ソースの、最大かつ最も広範囲にアノテートされたデータセットを構築した。
本稿では,ニュース記事中のソースの構成性を研究するための新しいタスクであるソース予測を導入する。
論文 参考訳(メタデータ) (2023-05-24T08:56:35Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。