論文の概要: Beyond Known Facts: Generating Unseen Temporal Knowledge to Address Data Contamination in LLM Evaluation
- arxiv url: http://arxiv.org/abs/2601.13658v1
- Date: Tue, 20 Jan 2026 06:48:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.191144
- Title: Beyond Known Facts: Generating Unseen Temporal Knowledge to Address Data Contamination in LLM Evaluation
- Title(参考訳): ファクトを超えて: LLM評価におけるデータ汚染への対処のための見知らぬ時間的知識の生成
- Authors: Arthur Amalvy, Hen-Hsen Huang,
- Abstract要約: トレーニングと評価のための既存のデータセットは依然として少ない。
評価データの汚染は 未解決の問題だ
我々は4.2Kの将来の四重項とそれに対応するテキスト記述からなるデータセットをリリースする。
- 参考スコア(独自算出の注目度): 17.489075240435344
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The automatic extraction of information is important for populating large web knowledge bases such as Wikidata. The temporal version of that task, temporal knowledge graph extraction (TKGE), involves extracting temporally grounded facts from text, represented as semantic quadruples (subject, relation, object, timestamp). Many recent systems take advantage of large language models (LLMs), which are becoming a new cornerstone of the web due to their performance on many tasks across the natural language processing (NLP) field. Despite the importance of TKGE, existing datasets for training and evaluation remain scarce, and contamination of evaluation data is an unaddressed issue, potentially inflating LLMs' perceived performance due to overlaps between training and evaluation sets. To mitigate these challenges, we propose a novel synthetic evaluation dataset constructed from predicted future, previously unseen temporal facts, thereby eliminating contamination and enabling robust and unbiased benchmarking. Our dataset creation involves a two-step approach: (1) Temporal Knowledge Graph Forecasting (TKGF) generates plausible future quadruples, which are subsequently filtered to adhere to the original knowledge base schema; (2) LLMs perform quadruple-to-text generation, creating semantically aligned textual descriptions. We benchmark Extract, Define and Canonicalize (EDC), a state-of-the-art LLM-based extraction framework, demonstrating that LLM performance decreases when evaluated on our dataset compared to a dataset of known facts. We publicly release our dataset consisting of 4.2K future quadruples and corresponding textual descriptions, along with the generation methodology, enabling continuous creation of unlimited future temporal datasets to serve as long-term, contamination-free benchmarks for TKGE.
- Abstract(参考訳): Wikidata などの大規模な Web 知識基盤の収集には,情報の自動抽出が重要である。
そのタスクの時間的バージョンである時間的知識グラフ抽出(TKGE)は、意味的な四重項(オブジェクト、関係、オブジェクト、タイムスタンプ)として表されるテキストから時間的根拠のある事実を抽出する。
近年のシステムの多くは、自然言語処理(NLP)分野における多くのタスクにおいて、Webの新たな基盤となっている大規模言語モデル(LLM)を活用している。
TKGEの重要性にもかかわらず、既存のトレーニングと評価のためのデータセットは依然として不足しており、評価データの汚染は未修正の問題であり、トレーニングと評価セットの重複によるLLMの認識性能の増大を招く可能性がある。
これらの課題を緩和するため,予測される将来性から構築された新しい総合評価データセットを提案し,汚染を排除し,堅牢で偏りのないベンチマークを可能にする。
データセット作成には,(1)時間的知識グラフ予測(TKGF)は,元の知識ベーススキーマに準拠するようにフィルタされた,可算な将来の四重対を生成する。
我々は,現在最先端のLCMベースの抽出フレームワークであるExtract, Define and Canonicalize (EDC)をベンチマークし,LLMの性能が既知の事実のデータセットと比較してデータセット上で評価されると低下することを示した。
我々は4.2Kの将来の四重項とそれに対応するテキスト記述からなるデータセットと生成方法論を公開し、TKGEの長期的汚染のないベンチマークとして、無制限の時間的データセットを連続的に作成することを可能にする。
関連論文リスト
- Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - On the Temporal Question-Answering Capabilities of Large Language Models Over Anonymized Data [1.2979906794584584]
訓練中に存在しないデータに対する時間的推論タスクにおけるLarge Language Model(LLM)の適用性はまだ検討されていない分野である。
本稿では、構造化および半構造化された匿名化データに焦点をあてて、このトピックについて論じる。
自然言語における17の共通時間的推論タスクを特定し,そのアルゴリズム的構成要素に着目した。
論文 参考訳(メタデータ) (2025-04-10T10:48:42Z) - Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - CLST: Cold-Start Mitigation in Knowledge Tracing by Aligning a Generative Language Model as a Students' Knowledge Tracer [1.6713666776851528]
学生の知識トレーサとして生成言語モデルを整列させることにより、知識追跡におけるコールドスタート緩和を提案する(T)。
我々は、自然言語処理タスクとしてKTタスクをフレーム化し、自然言語で問題解決データを表現した。
各種ベースラインモデルを用いたデータ不足状況におけるCLSTの性能評価を行った。
論文 参考訳(メタデータ) (2024-06-13T09:21:43Z) - Beyond Traditional Benchmarks: Analyzing Behaviors of Open LLMs on Data-to-Text Generation [0.0]
データ・トゥ・テキスト(D2T)生成タスクにおけるオープン・大規模言語モデル(LLM)の挙動を解析する。
オープン LLM は,Quintd で収集した共通フォーマットのデータから,ゼロショット設定で,ゆるやかで一貫性のあるテキストを生成することができる。
論文 参考訳(メタデータ) (2024-01-18T18:15:46Z) - Chain of History: Learning and Forecasting with LLMs for Temporal
Knowledge Graph Completion [24.545917737620197]
時間知識グラフ補完(TKGC)は、将来のタイムスタンプにおけるイベントリンクの欠落を予測する複雑なタスクである。
本稿では,時間的知識グラフの推論において,大規模言語モデルの利点を活用するための総合的な視点を提供することを目的とする。
論文 参考訳(メタデータ) (2024-01-11T17:42:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。