Fugu-MT 論文翻訳(概要): Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs

論文の概要: Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs

arxiv url: http://arxiv.org/abs/2510.02340v2
Date: Wed, 15 Oct 2025 00:27:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-16 15:32:14.098464
Title: Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs
Title（参考訳）: LLMの時間短縮は可能か? : 知識遮断の効果評価
Authors: Xin Gao, Ruiyi Zhang, Daniel Du, Saurabh Mahindre, Sai Ashish Somayajula, Pengtao Xie,
Abstract要約: 大規模言語モデル(LLM)は時間的予測に広く用いられているが、事前学習データへの依存は汚染の懸念を引き起こす。 LLMにおける初期の知識遮断をシミュレートする能力について検討する。以上の結果から, 即時的知識カットオフは, その日以降の情報を直接クエリした場合の有効性を示すが, 忘れた内容が直接問い合わせられるのではなく, 慎重にクエリに関連付けられている場合, 忘れることの誘発に苦慮していることが示された。
参考スコア（独自算出の注目度）: 31.64130018833542
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are widely used for temporal prediction, but their reliance on pretraining data raises contamination concerns, as accurate predictions on pre-cutoff test data may reflect memorization rather than reasoning, leading to an overestimation of their generalization capability. With the recent emergence of prompting-based unlearning techniques, a natural question arises: Can LLMs be prompted to simulate an earlier knowledge cutoff? In this work, we investigate the capability of prompting to simulate earlier knowledge cutoff in LLMs. We construct three evaluation datasets to assess the extent to which LLMs can forget (1) direct factual knowledge, (2) semantic shifts, and (3) causally related knowledge. Results demonstrate that while prompt-based simulated knowledge cutoffs show effectiveness when directly queried with the information after that date, they struggle to induce forgetting when the forgotten content is not directly asked but causally related to the query. These findings highlight the need for more rigorous evaluation settings when applying LLMs for temporal prediction tasks. The full dataset and evaluation code are available at https://github.com/gxx27/time_unlearn.
Abstract（参考訳）: 大規模言語モデル(LLM)は時間的予測に広く用いられているが、事前学習データへの依存が汚染の懸念を引き起こす。最近、プロンプトベースの未学習技術が出現し、自然な疑問が持ち上がっている。本研究では,LLMにおける初期の知識遮断をシミュレートする能力について検討する。本研究では,(1)直接的事実的知識,(2)意味的シフト,(3)因果的関連知識の3つの評価データセットを構築し,LLMが忘れられる程度を評価する。以上の結果から, 即時的知識カットオフは, その日以降の情報を直接クエリした場合の有効性を示すが, 忘れた内容が直接問い合わせられるのではなく, 慎重にクエリに関連付けられている場合, 忘れることの誘発に苦慮していることが示された。これらの知見は、時間的予測タスクにLLMを適用する際に、より厳密な評価設定の必要性を浮き彫りにしている。完全なデータセットと評価コードはhttps://github.com/gxx27/time_unlearn.comで公開されている。

関連論文リスト

Parametric Knowledge is Not All You Need: Toward Honest Large Language Models via Retrieval of Pretraining Data [33.6173339938215]
大規模言語モデル(LLM)は疑問に答える能力が高いが、彼ら自身の知識境界に気づいていないことが多い。幻覚よりも、言語モデルはより正直で、トピックに関する十分な知識がなければ、"私は知らない"と答えるべきです。
論文参考訳（メタデータ） (2026-01-29T03:32:09Z)
LLMLagBench: Identifying Temporal Training Boundaries in Large Language Models [0.0]
大規模言語モデル(LLM)は、特定の時間的カットオフまでのテキストデータに基づいて事前訓練される。 LLMは必然的に時代遅れのタイムセンシティブな情報を推論タスク中に一般的な知識とブレンドすることができる。
論文参考訳（メタデータ） (2025-11-15T09:08:10Z)
Realizing LLMs' Causal Potential Requires Science-Grounded, Novel Benchmarks [20.409472830397455]
因果発見に関するLLM(Large Language Models)による最近の強いパフォーマンスの主張は、重要な欠陥によって損なわれている。 LLMは因果構造を本当に理由付けていますか? LLMの因果解析の可能性を実現するには、(P.1)最近の科学的研究に基づく堅牢な評価プロトコルを開発し、(P.2)LLM由来の知識とデータ駆動統計を組み合わせたハイブリッドな手法を設計することが必要である。
論文参考訳（メタデータ） (2025-10-18T14:58:04Z)
ExAnte: A Benchmark for Ex-Ante Inference in Large Language Models [12.948099229475265]
大型言語モデル (LLM) は、元Antの推論において重大な課題に直面している。時間的カットオフを強制する明示的なプロンプトであっても、LLMは指定されたカットオフを超えた事象の内在的な知識に影響された出力をしばしば生成する。本稿では、このような時間的制約に固執しながら、LCMの推論能力を評価するための新しいタスクとベンチマークを提案する。
論文参考訳（メタデータ） (2025-05-26T05:39:57Z)
Are the Hidden States Hiding Something? Testing the Limits of Factuality-Encoding Capabilities in LLMs [48.202202256201815]
大型言語モデル(LLM)における実名幻覚不正確なコンテンツや偽造コンテンツを生成することによって、信頼性とユーザ信頼を損なう。近年の研究では、偽文を生成する際、LLMの内部状態が真偽に関する情報を符号化していることが示唆されている。
論文参考訳（メタデータ） (2025-05-22T11:00:53Z)
LLM-based Query Expansion Fails for Unfamiliar and Ambiguous Queries [5.561044064438963]
大規模言語モデル(LLM)は、従来のルールベースおよび統計手法に代わる効果的な代替手段を提供する。大規模言語モデル(LLM)は、従来のルールベースおよび統計手法に代わる効果的な代替手段を提供する。
論文参考訳（メタデータ） (2025-05-19T04:33:09Z)
Inside-Out: Hidden Factual Knowledge in LLMs [50.79758420289131]
この研究は、大言語モデル(LLM)が出力で表現したものよりも、パラメータの事実的知識を符号化するかどうかを評価するためのフレームワークを示す。まず、与えられた質問に対して、正解が上位にランクされている正解対の分数として、その知識の形式的定義を定量化する。次に、このフレームワークを3つの人気のあるオープンウェイト LLM に適用し、クローズドブック QA セットアップのケーススタディを示す。
論文参考訳（メタデータ） (2025-03-19T15:21:48Z)
Are LLMs Really Not Knowledgable? Mining the Submerged Knowledge in LLMs' Memory [15.986679553468989]
大規模言語モデル(LLM)は潜在的な知識基盤として有望であることを示している。 LLMは質問応答タスクに苦しむことが多く、幻覚を起こす傾向がある。我々は,検出されたが表現されていない知識を活用することで,解答精度を向上させる手法であるSkipUnsureを開発した。
論文参考訳（メタデータ） (2024-12-30T10:29:18Z)
Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。 ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文参考訳（メタデータ） (2024-10-31T03:42:17Z)
Utilize the Flow before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning [68.57166425493283]
Refusal-Aware Instruction Tuning (RAIT) により、Large Language Models (LLM) は未知の質問に答えることを拒否できる。この粗末なアプローチは、LLMが正しく答えられる可能性のある質問に答えることを過剰に拒否する可能性がある。本稿では,CRaFT(Certainty Represented Knowledge Flow for Refusal-Aware Instructions Tuning)を提案する。
論文参考訳（メタデータ） (2024-10-09T14:12:51Z)
Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文参考訳（メタデータ） (2024-05-10T15:10:20Z)
Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。 1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文参考訳（メタデータ） (2024-04-25T13:10:48Z)
Dated Data: Tracing Knowledge Cutoffs in Large Language Models [47.987664966633865]
LLMの資源レベルの時間的アライメントに有効なカットオフを推定するための簡単な手法を提案する。効果的なカットオフは、報告されたカットオフとしばしば異なります。提案手法は,(1)非自明なデータ量によるCommonCrawlデータの時間的偏りと,(2)意味的重複と語彙的近接重複を含むLLM重複の重複という2つの原因を明らかにした。
論文参考訳（メタデータ） (2024-03-19T17:57:58Z)
DocTER: Evaluating Document-based Knowledge Editing [53.14000724633775]
本稿では,手作業で3つの文書をラベル付けするのではなく,簡単にアクセスできる文書を用いた知識編集について検討する。総合的な4つのパースペクティブ評価: 編集成功、局所性、推論、言語間移動。一般的な知識編集手法の実験は、文書による編集が三重項を使用するよりもはるかに大きな課題を示すことを示した。
論文参考訳（メタデータ） (2023-08-19T09:17:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。