論文の概要: FactNet: A Billion-Scale Knowledge Graph for Multilingual Factual Grounding
- arxiv url: http://arxiv.org/abs/2602.03417v1
- Date: Tue, 03 Feb 2026 11:44:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.424065
- Title: FactNet: A Billion-Scale Knowledge Graph for Multilingual Factual Grounding
- Title(参考訳): FactNet: マルチリンガルなFactual Groundingのための10億ドル規模の知識グラフ
- Authors: Yingli Shen, Wen Lai, Jie Zhou, Xueren Zhang, Yudong Wang, Kangyang Luo, Shuo Wang, Ge Gao, Alexander Fraser, Maosong Sun,
- Abstract要約: LLMは顕著な流布を示し、その効用は事実の幻覚と追跡可能な証明の欠如によってしばしば損なわれる。
私たちはFactNetを紹介します。FactNetは17億の原子的主張と、316のウィキペディア版から派生した37億の監査可能なエビデンスポインタを統合するために設計された、巨大なオープンソースリソースです。
- 参考スコア(独自算出の注目度): 81.2130536158575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While LLMs exhibit remarkable fluency, their utility is often compromised by factual hallucinations and a lack of traceable provenance. Existing resources for grounding mitigate this but typically enforce a dichotomy: they offer either structured knowledge without textual context (e.g., knowledge bases) or grounded text with limited scale and linguistic coverage. To bridge this gap, we introduce FactNet, a massive, open-source resource designed to unify 1.7 billion atomic assertions with 3.01 billion auditable evidence pointers derived exclusively from 316 Wikipedia editions. Unlike recent synthetic approaches, FactNet employs a strictly deterministic construction pipeline, ensuring that every evidence unit is recoverable with byte-level precision. Extensive auditing confirms a high grounding precision of 92.1%, even in long-tail languages. Furthermore, we establish FactNet-Bench, a comprehensive evaluation suite for Knowledge Graph Completion, Question Answering, and Fact Checking. FactNet provides the community with a foundational, reproducible resource for training and evaluating trustworthy, verifiable multilingual systems.
- Abstract(参考訳): LLMは顕著な流行を示すが、その実用性は事実の幻覚と追跡可能な証明の欠如によってしばしば損なわれる。
既存の基盤化のリソースは、これを緩和するが、典型的には二分法を強制する:それらは、テキストコンテキスト(例えば、知識ベース)なしで構造化された知識を提供するか、限定的なスケールと言語的カバレッジを持つ接地されたテキストを提供する。
このギャップを埋めるために、我々はFactNetを紹介します。これは、13億の原子的主張と、316のウィキペディア版から排他的に派生した310億の監査可能なエビデンスポインタを統合するために設計された、巨大なオープンソースリソースです。
最近の合成アプローチとは異なり、FactNetは厳密な決定論的構成パイプラインを採用し、すべてのエビデンスユニットがバイトレベルの精度で回復可能であることを保証している。
広範囲な監査は、長い尾の言語でさえ、92.1%という高い接地精度を確認している。
さらに,知識グラフ補完,質問回答,ファクトチェックのための総合的な評価スイートであるFactNet-Benchを確立する。
FactNetは、信頼できる検証可能な多言語システムのトレーニングと評価のための基礎的で再現可能なリソースをコミュニティに提供する。
関連論文リスト
- Detecting Corpus-Level Knowledge Inconsistencies in Wikipedia with Large Language Models [11.16952630564181]
不整合, 特定の事実的不整合に着目し, コーパスレベルの不整合検出の課題を導入する。
本稿では,LLM推論と検索を組み合わせたエージェントシステムであるCLAIREについて述べる。
経験豊富なウィキペディア編集者によるユーザスタディでは、87.5%がCLAIREを使用する際の信頼性が高く、参加者は同じ時間内に64.7%の矛盾が見つかった。
論文 参考訳(メタデータ) (2025-09-27T10:32:41Z) - Fact or Fiction? Improving Fact Verification with Knowledge Graphs through Simplified Subgraph Retrievals [0.0]
本稿では, 証拠が構造化知識グラフの形で存在するデータセット上で, クレームを検証するための効率的な方法を提案する。
また,エビデンス検索プロセスの簡略化により,計算資源の削減とテストセット精度の向上を実現するモデルの構築が可能となる。
論文 参考訳(メタデータ) (2024-08-14T10:46:15Z) - FactGenius: Combining Zero-Shot Prompting and Fuzzy Relation Mining to Improve Fact Verification with Knowledge Graphs [0.0]
FactGeniusは,大規模言語モデルのゼロショットプロンプトと知識グラフ上のファジィテキストマッチングを組み合わせることで,ファクトチェックを強化する新しい手法である。
事実検証のベンチマークデータセットであるFactKG上でのFactGeniusの評価は、既存のベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-06-03T13:24:37Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Linking Surface Facts to Large-Scale Knowledge Graphs [23.380979397966286]
Open Information extract (OIE)メソッドは、自然言語のテキストから、"subject"、"relation"、"object"の三重項の形で事実を抽出する。
知識グラフ(KG)は、正準形式(すなわち曖昧な形式)の事実を含むが、そのカバレッジは静的スキーマによって制限される。
本稿では,例えば,ファクトリンク性能を粒度三重スロットレベルで測定できる新しい評価プロトコルを用いたベンチマークを提案する。
論文 参考訳(メタデータ) (2023-10-23T13:18:49Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z) - CHEF: A Pilot Chinese Dataset for Evidence-Based Fact-Checking [55.75590135151682]
CHEFは、10万件の現実世界のクレームに関する最初のChenese EvidenceベースのFact-checkingデータセットである。
このデータセットは、政治から公衆衛生まで、複数のドメインをカバーし、インターネットから取得した注釈付きの証拠を提供する。
論文 参考訳(メタデータ) (2022-06-06T09:11:03Z) - CoLAKE: Contextualized Language and Knowledge Embedding [81.90416952762803]
文脈型言語と知識埋め込み(CoLAKE)を提案する。
CoLAKEは、言語と知識の両方の文脈化された表現を、拡張された目的によって共同で学習する。
知識駆動タスク、知識探索タスク、言語理解タスクについて実験を行う。
論文 参考訳(メタデータ) (2020-10-01T11:39:32Z) - Mining Commonsense Facts from the Physical World [23.813586698701606]
物理的世界のテクストの記述は暗黙的に常識的な事実に言及しているが、コモンセンスの知識基盤はこれらの事実を三重として明確に表現している。
知識基盤の人口化に関する以前の研究のほとんどは、主にFreebaseに焦点を当てていた。
我々は、シーケンステキストと既存の知識ベースリソースの両方から情報を融合する効果的な新しいモデルを構築します。
論文 参考訳(メタデータ) (2020-02-08T12:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。