論文の概要: On-Premise AI for the Newsroom: Evaluating Small Language Models for Investigative Document Search
- arxiv url: http://arxiv.org/abs/2509.25494v1
- Date: Mon, 29 Sep 2025 20:50:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.941358
- Title: On-Premise AI for the Newsroom: Evaluating Small Language Models for Investigative Document Search
- Title(参考訳): ニュースルームのためのオンプレミスAI:調査文書検索のための小言語モデルの評価
- Authors: Nick Hagar, Nicholas Diakopoulos, Jeremy Gilbert,
- Abstract要約: 検索拡張生成(RAG)機能を備えた大規模言語モデル(LLM)は、文書発見のプロセスの高速化を約束する。
我々は5段階のパイプラインを通して透明性と編集制御を優先するジャーナリスト中心の検索手法を提案する。
我々は2つのコーパス上で3つの量子化モデル(Gemma 3 12B, Qwen 3 14B, GPT-OSS 20B)を評価し,信頼性のかなりの変動を見出した。
- 参考スコア(独自算出の注目度): 2.853035319109148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Investigative journalists routinely confront large document collections. Large language models (LLMs) with retrieval-augmented generation (RAG) capabilities promise to accelerate the process of document discovery, but newsroom adoption remains limited due to hallucination risks, verification burden, and data privacy concerns. We present a journalist-centered approach to LLM-powered document search that prioritizes transparency and editorial control through a five-stage pipeline -- corpus summarization, search planning, parallel thread execution, quality evaluation, and synthesis -- using small, locally-deployable language models that preserve data security and maintain complete auditability through explicit citation chains. Evaluating three quantized models (Gemma 3 12B, Qwen 3 14B, and GPT-OSS 20B) on two corpora, we find substantial variation in reliability. All models achieved high citation validity and ran effectively on standard desktop hardware (e.g., 24 GB of memory), demonstrating feasibility for resource-constrained newsrooms. However, systematic challenges emerged, including error propagation through multi-stage synthesis and dramatic performance variation based on training data overlap with corpus content. These findings suggest that effective newsroom AI deployment requires careful model selection and system design, alongside human oversight for maintaining standards of accuracy and accountability.
- Abstract(参考訳): 調査ジャーナリストは定期的に大規模な文書収集に直面する。
検索強化世代(RAG)機能を持つ大規模言語モデル(LLM)は、文書発見のプロセスの加速を約束するが、幻覚のリスク、検証の負担、データプライバシの懸念により、ニュースルームの採用は制限されている。
本稿では,LLMを利用した文書検索におけるジャーナリスト中心のアプローチとして,コーパス要約,検索計画,並列スレッド実行,品質評価,合成といった5段階のパイプラインを通じて,データセキュリティを保護し,明示的な引用連鎖を通じて完全な監査性を維持するための,ローカルに展開可能な小さな言語モデルを用いて,透明性と編集性制御を優先する手法を提案する。
2つのコーパス上で3つの量子化モデル (Gemma 3 12B, Qwen 3 14B, GPT-OSS 20B) を評価することにより, 信頼性にかなりの変化が認められた。
全てのモデルは高い引用精度を実現し、標準的なデスクトップハードウェア(例えば24GBのメモリ)上で効果的に動作し、リソース制約のあるニュースルームの実現可能性を示した。
しかし、多段階合成によるエラー伝播や、コーパスの内容と重なるトレーニングデータに基づく劇的なパフォーマンス変動など、体系的な課題が出現した。
これらの結果は、効果的なニュースルームAIデプロイメントには、正確性と説明責任の基準を維持するために、人間の監督とともに、慎重なモデル選択とシステム設計が必要であることを示唆している。
関連論文リスト
- NEWSAGENT: Benchmarking Multimodal Agents as Journalists with Real-World Newswriting Tasks [21.577527868033343]
NEWSAGENTは、エージェントが利用可能な生のコンテンツを自動的に検索し、望ましい情報を選択し、ニュース記事の編集とリフレーズを行う方法を評価するためのベンチマークである。
NEWSAGENTには、実際のニュースから派生した6kの人間による検証例が含まれており、マルチモーダルコンテンツは、幅広いモデル互換性のためにテキストに変換される。
NEWSAGENTは、マルチモーダルなWebデータ操作から現実の生産性まで、エージェント機能を反復し評価するための現実的なテストベッドであると考えています。
論文 参考訳(メタデータ) (2025-08-30T10:31:34Z) - Are We on the Right Way for Assessing Document Retrieval-Augmented Generation? [16.717935491483146]
Double-Benchは、大規模、多言語、マルチモーダル評価システムである。
ドキュメントRAGシステム内の各コンポーネントに対してきめ細かい評価を行う。
3,276のドキュメント(72,880ページ)と6言語で5,168のシングルホップクエリで構成されている。
論文 参考訳(メタデータ) (2025-08-05T16:55:02Z) - BiMark: Unbiased Multilayer Watermarking for Large Language Models [68.64050157343334]
テキスト品質とメッセージ埋め込み能力のバランスをとる新しい透かしフレームワークであるBiMarkを提案する。
BiMarkは、短いテキストに対して最大30%高い抽出率を達成すると同時に、低いパープレキシティで示されるテキスト品質を維持する。
論文 参考訳(メタデータ) (2025-06-19T11:08:59Z) - CrEst: Credibility Estimation for Contexts in LLMs via Weak Supervision [15.604947362541415]
CrEstは、推論中のコンテキスト文書の信頼性を評価する弱教師付きフレームワークである。
3つのモデルアーキテクチャと5つのデータセットにわたる実験は、CrEstが強いベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-06-17T18:44:21Z) - FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" [74.7488607599921]
FaithEvalは、コンテキストシナリオにおける大規模言語モデル(LLM)の忠実度を評価するためのベンチマークである。
FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証されている。
我々の研究は、最先端のモデルでさえ、与えられた文脈に忠実であり続けるのに苦労することが多く、大きなモデルが必ずしも改善された忠実を示すとは限らないことを明らかにしている。
論文 参考訳(メタデータ) (2024-09-30T06:27:53Z) - Re-Search for The Truth: Multi-round Retrieval-augmented Large Language Models are Strong Fake News Detectors [38.75533934195315]
大きな言語モデル(LLM)はその顕著な推論と生成能力で知られている。
クレーム検証のための Web ソースからキーエビデンスを自動的に戦略的に抽出する,新たな LLM フレームワークについて紹介する。
我々の枠組みは十分な証拠の取得を保証し、性能を向上させる。
論文 参考訳(メタデータ) (2024-03-14T00:35:39Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - You Can Generate It Again: Data-to-Text Generation with Verification and Correction Prompting [24.738004421537926]
T5のような小さな言語モデルは、データからテキストへのタスクのための高品質なテキストを生成するのに優れている。
彼らはしばしばキーワードを見逃すが、これはこのタスクで最も重大で一般的なエラーの1つだと考えられている。
我々は,データ・テキスト生成タスクにおいて,より小さな言語モデルにおける意味的忠実度を高めるためにフィードバックシステムを利用することの可能性を探る。
論文 参考訳(メタデータ) (2023-06-28T05:34:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。