論文の概要: Grounded Continuation: A Linear-Time Runtime Verifier for LLM Conversations
- arxiv url: http://arxiv.org/abs/2605.14175v1
- Date: Wed, 13 May 2026 22:54:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.530368
- Title: Grounded Continuation: A Linear-Time Runtime Verifier for LLM Conversations
- Title(参考訳): 接地継続:LLM会話のための線形時間実行検証器
- Authors: Qisong He, Yi Dong, Xiaowei Huang,
- Abstract要約: デプロイされたエージェントに対するコンテキスト操作攻撃は、このギャップを積極的に活用する。
明示的な依存性グラフを保持するランタイム検証器でそれをクローズします。
継続がサポートされるかどうかを確認することは、グラフウォークに還元され、リトラクションは同じグラフを通して、サポートを失う結論を正確に宣言する。
- 参考スコア(独自算出の注目度): 15.537674351419234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In long conversations, an LLM can produce a next utterance that sounds plausible but rests on premises the conversation has already abandoned. Context-manipulation attacks against deployed agents now actively exploit this gap. We close it with a runtime verifier that maintains an explicit dependency graph: an LLM classifies each turn into one of 8 update operations drawn from four formalisms (dynamic epistemic logic, abductive reasoning, awareness logic, argumentation), and a symbolic engine records which claims depend on which evidence. Checking whether a continuation is supported reduces to a graph walk; retraction propagates through the same graph to flag exactly the conclusions that lose support, with linear per-turn cost and a formal conflict-free guarantee. On LongMemEval-KU oracle (n=78), the verifier reaches 89.7% accuracy vs. 88.5% for the LLM-only baseline (+1.3pp) and 87.2% for a transcript-RAG baseline matched on retrieval budget (+2.6pp); wins among disagreements are correct abstentions where the baseline confabulates. On LoCoMo's 60 official QA items the verifier is competitive with retrieval-augmented baselines. Beyond external benchmarks, we construct two multi-agent scenarios and a 50-item grounding test: on the 15-item stale-premise subset, the verifier reaches 100% accuracy vs. 93.3% (+6.7pp). These instantiate a soundness-faithfulness decomposition: the structural check is sound by construction, and per-deployment LLM extraction faithfulness is the empirical question we measure across four LLM families. The retraction check plateaus at microseconds while history-replay grows linearly with conversation length.
- Abstract(参考訳): 長い会話の中で、LLMは次の発話を生成することができる。
デプロイされたエージェントに対するコンテキスト操作攻撃は、このギャップを積極的に活用する。
LLMは、各ターンを4つの形式主義(動的疫学論理、帰納的推論、認識論理、議論)から引き出された8つの更新操作のうちの1つに分類し、どの証拠に依存するかを主張するシンボリックエンジン記録を作成する。
継続がサポートされるかどうかを確認することはグラフウォークに還元され、リトラクションは同じグラフを伝搬し、リトラクションがサポートを失う結論を正確に宣言する。
LongMemEval-KUオラクル(n=78)では、LLMのみのベースライン(+1.3pp)では89.7%、検索予算(+2.6pp)では87.2%に達する。
LoCoMoの60項目の公式QA項目では、検証は検索強化ベースラインと競合する。
外部ベンチマーク以外にも、2つのマルチエージェントシナリオと50イテムのグラウンドテストを構築した: 15イテムのステール前提サブセット上で、検証器は93.3%(+6.7pp)に対して100%精度に達する。
構造チェックは構築によって音声であり、デプロイメントごとのLCM抽出忠実度は、4つのLCMファミリーで測定した経験的質問である。
リトラクションチェックプラトーはマイクロ秒で、履歴再生は会話の長さとともに線形に成長する。
関連論文リスト
- ReFlect: An Effective Harness System for Complex Long-Horizon LLM Reasoning [5.523132953818281]
本稿では,LLM推論のためのシステムであるReFlectについて述べる。
6つの推論領域にまたがる制御された実験により、100個の監査された反射ブロックのうち90個の問題にフラグを付けない、プロンプトレベルの自己批判が公式テンプレートを生成することが示された。
我々のReFlectハーネスは, GPT-4o-miniで41%, Claude Sonnet 4.5で56%のタスク成功率を実現している。
論文 参考訳(メタデータ) (2026-05-07T06:29:34Z) - Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought? [79.86483056611105]
推論 LLM は、答えを出す前にステップバイステップの思考連鎖を生成する。
これらの推論は、その内部で発生する破壊の痕跡をどれほど堅牢にしていますか?
一定のタイミングでモデル自身のCoTを摂動させる制御された評価フレームワークを導入する。
論文 参考訳(メタデータ) (2026-02-07T10:02:58Z) - Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - Valid Stopping for LLM Generation via Empirical Dynamic Formal Lift [6.908972852063454]
シーケンシャルEDFLは、シーケンシャルベースラインに対して22~28%生成を減少させる。
EDFLは第1段階のフィルタとして機能し、検証負荷を83%削減する。
論文 参考訳(メタデータ) (2025-10-07T21:28:53Z) - Robust Knowledge Editing via Explicit Reasoning Chains for Distractor-Resilient Multi-Hop QA [63.96040994220329]
Reason-KEは、4つの構造化されたステージファクト認識、関連性決定、選択的応用、そして1回のパスでイントラクタをフィルタする最終的な理由付けによって、事前訓練された大きな言語モデルを操る。
最大4つの無関係な事実を持つMQuAKE-CFで訓練されたReason-KEは、QAの精度を90.2%に高め、重い注意を払って6.3%低下し、回答が漏れたときは1%にしかならない。
論文 参考訳(メタデータ) (2025-09-01T13:37:42Z) - APOLLO: Automated LLM and Lean Collaboration for Advanced Formal Reasoning [16.8655558789989]
本稿では,自動定理証明のためのモデルに依存しないエージェントフレームワークであるAPOLLO (Automated PrOof repair viaLLM and Lean cOllaboration)を提案する。
エージェントのセットは、証明を分析し、シンタックスのエラーを修正し、リーンを使って証明の誤りを特定し、失敗するサブレムマを分離し、自動化されたソルバを利用し、残りの目標に対してLLMを呼び出す。
この結果から,LLM出力を目標としたコンパイラ誘導型修復は,効率と正確性の両方において劇的に向上することが示された。
論文 参考訳(メタデータ) (2025-05-09T03:38:31Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Chain of Evidences and Evidence to Generate: Prompting for Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
チェイン・オブ・エビデンス(CoE)とエビデンス・トゥ・ジェネレーション(E2G)は2つのユニークな戦略に基づいて構築されている。
根拠のない推論の主張の代わりに、我々の革新的なアプローチは「意思決定の証拠」の力を利用する。
我々のフレームワークは、様々な知識集約的推論および生成タスクにおいて、常に顕著な結果を達成する。
論文 参考訳(メタデータ) (2024-01-11T09:49:15Z) - A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia [57.31074448586854]
大規模言語モデル(LLM)は、そのコンテキストで提供される新しい情報を引き出すという印象的な能力を持つ。
しかし、この文脈的基盤のメカニズムはいまだに不明である。
本稿では,Fakepedia を用いたグラウンドディング能力の研究手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T17:35:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。