論文の概要: NewsScope: Schema-Grounded Cross-Domain News Claim Extraction with Open Models
- arxiv url: http://arxiv.org/abs/2601.08852v1
- Date: Fri, 26 Dec 2025 19:17:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.678402
- Title: NewsScope: Schema-Grounded Cross-Domain News Claim Extraction with Open Models
- Title(参考訳): NewsScope: オープンモデルを用いたスキーマ付きクロスドメインニュースクレーム抽出
- Authors: Nidhi Pandya,
- Abstract要約: NewsScopeは、スキーマ付きニュースクレーム抽出のためのクロスドメインデータセット、ベンチマーク、微調整モデルである。
データセットには政治、健康、科学/環境、ビジネスに関する455の記事が含まれている。
LLaMA 3.1 8Bは、LoRAを315のトレーニング例で微調整し、保持領域内(80記事)とアウト・オブ・ソース(60記事)のテストセットで評価した。
- 参考スコア(独自算出の注目度): 0.15039745292757667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated news verification requires structured claim extraction, but existing approaches either lack schema compliance or generalize poorly across domains. This paper presents NewsScope, a cross-domain dataset, benchmark, and fine-tuned model for schema-grounded news claim extraction. The dataset contains 455 articles across politics, health, science/environment, and business, consisting of 395 in-domain articles and 60 out-of-source articles for generalization testing. LLaMA 3.1 8B was fine-tuned using LoRA on 315 training examples and evaluated on held-out in-domain (80 articles) and out-of-source (60 articles) test sets. Human evaluation on 400 claims shows NewsScope achieves 89.4% human-evaluated accuracy compared to GPT-4o-mini's 93.7% (p=0.07). NewsScope outperforms GPT-4o-mini on political claims (94.3% vs. 87.8%). A numeric grounding filter further improves accuracy to 91.6%, narrowing the gap to 2.1 percentage points. Inter-annotator agreement studies (160 claims) confirm labeling reliability (94.6% positive agreement on SUPPORTED judgments). The open-weight model enables offline deployment at approximately $15 on-demand compute (or $0 on free tiers). Code and benchmark are publicly released.
- Abstract(参考訳): 自動ニュース検証には構造化されたクレーム抽出が必要であるが、既存のアプローチではスキーマコンプライアンスが欠如しているか、ドメイン間での一般化が不十分である。
本稿では,スキーマ付きニュースクレーム抽出のためのクロスドメインデータセット,ベンチマーク,微調整モデルであるNewsScopeを提案する。
このデータセットには、政治、健康、科学、環境、ビジネスにまたがる455の記事が含まれており、395のドメイン内記事と60のアウト・オブ・ソース記事で構成されている。
LLaMA 3.1 8Bは、LoRAを315のトレーニング例で微調整し、保持領域内(80記事)とアウト・オブ・ソース(60記事)のテストセットで評価した。
400件の主張に対する人間の評価は、GPT-4o-miniの93.7%(p=0.07)と比較して、NewsScopeが89.4%の精度で評価されていることを示している。
NewsScopeは政治的主張でGPT-4o-mini(94.3%対87.8%)を上回っている。
数値接地フィルタはさらに精度を91.6%に改善し、ギャップを2.1ポイントに縮める。
アノテーション間合意研究(160クレーム)は、ラベル付けの信頼性(支持された判断について94.6%の肯定的な合意)を確認している。
オープンウェイトモデルは、約15ドルのオンデマンド計算(無料プランで0ドル)でオフラインでのデプロイを可能にする。
コードとベンチマークが公開されている。
関連論文リスト
- FormationEval, an open multiple-choice benchmark for petroleum geoscience [0.0]
FormationEvalは、石油地球科学の分野における言語モデルを評価するための、オープンな多重選択質問ベンチマークである。
評価対象はOpenAI, Anthropic, Google, Meta, オープンウェイトな代替品など,主要なプロバイダの72モデルである。
トップパフォーマーは97%以上の精度を達成し、Gemini 3 Pro Previewは99.8%に達した。
論文 参考訳(メタデータ) (2026-01-05T14:36:02Z) - A Domain-Adapted Pipeline for Structured Information Extraction from Police Incident Announcements on Social Media [11.463924147467297]
我々は,警察のインシデント発表から構造化情報を取り出すためのドメイン適応抽出パイプラインを開発した。
中国語Weiboの27,822人の警察ブリーフィング投稿から得られた4,933件の高品質で手動の注釈付きデータセットを使用します。
また,LoRAを用いたファインチューニングにより,ベースモデルと命令調整モデルの両方で性能が大幅に向上した。
論文 参考訳(メタデータ) (2025-12-18T05:08:26Z) - Retrieval-Augmented Generation for Reliable Interpretation of Radio Regulations [49.671779378073886]
無線規制分野における質問応答について検討する。
本稿では,通信事業者固有のレトリーバル拡張生成(RAG)パイプラインを提案する。
当社のアプローチは,テスト対象モデル全体の生成精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-09-11T17:43:42Z) - An Auditable Pipeline for Fuzzy Full-Text Screening in Systematic Reviews: Integrating Contrastive Semantic Highlighting and LLM Judgment [0.0]
フルテキストのスクリーニングは、体系的なレビューの大きなボトルネックです。
私たちは、ファジィな決定問題として包摂/排除を再設計する、スケーラブルで監査可能なパイプラインを提示します。
論文 参考訳(メタデータ) (2025-08-17T17:41:50Z) - Recon, Answer, Verify: Agents in Search of Truth [36.56689822791777]
Politi Fact Only (PFO)は、politifact.comの2,982件の政治的主張のベンチマークデータセットである。
すべてのポストクレーム分析とアノテーションキューが手作業で削除された。
本稿では,質問生成,回答生成,ラベル生成という3つのエージェントからなるエージェントフレームワークであるRAVを提案する。
論文 参考訳(メタデータ) (2025-07-04T15:44:28Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Probabilistic Consensus through Ensemble Validation: A Framework for LLM Reliability [0.0]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩を示しているが、自律的なデプロイメントに必要な信頼性を欠いていることが多い。
本稿では,モデルコンセンサスを通じて,コンテンツ検証のためのアンサンブル手法を再利用する新しいフレームワークを提案する。
事実の精度と因果一貫性を必要とする78症例を対象としたテストでは, 精度が73.1%から93.9%に向上した。
論文 参考訳(メタデータ) (2024-11-10T17:32:16Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - Less is More: Fewer Interpretable Region via Submodular Subset Selection [54.07758302264416]
本稿では,上述の画像帰属問題を部分モジュラ部分選択問題として再モデル化する。
我々は、より正確な小さな解釈領域を発見するために、新しい部分モジュラー関数を構築する。
正しく予測されたサンプルに対しては,HSIC-Attributionに対する平均4.9%と2.5%の利得で,Deletion and Insertionスコアを改善した。
論文 参考訳(メタデータ) (2024-02-14T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。