論文の概要: Bounded PCTL Model Checking of Large Language Model Outputs
- arxiv url: http://arxiv.org/abs/2509.18836v1
- Date: Tue, 23 Sep 2025 09:19:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.796183
- Title: Bounded PCTL Model Checking of Large Language Model Outputs
- Title(参考訳): 大規模言語モデル出力のバウンドPCTLモデル検査
- Authors: Dennis Gross, Helge Spieker, Arnaud Gotlieb,
- Abstract要約: 通常、テキスト生成時に選択されるトークンは限られた数だけであり、必ずしも同じとは限らない。
この洞察は、$alpha$-$k$-bounded text generationの作成を促進する。
検証方法は初期文字列とそれに続くトップ$k$トークンについて検討する。
- 参考スコア(独自算出の注目度): 4.570003973862485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce LLMCHECKER, a model-checking-based verification method to verify the probabilistic computation tree logic (PCTL) properties of an LLM text generation process. We empirically show that only a limited number of tokens are typically chosen during text generation, which are not always the same. This insight drives the creation of $\alpha$-$k$-bounded text generation, narrowing the focus to the $\alpha$ maximal cumulative probability on the top-$k$ tokens at every step of the text generation process. Our verification method considers an initial string and the subsequent top-$k$ tokens while accommodating diverse text quantification methods, such as evaluating text quality and biases. The threshold $\alpha$ further reduces the selected tokens, only choosing those that exceed or meet it in cumulative probability. LLMCHECKER then allows us to formally verify the PCTL properties of $\alpha$-$k$-bounded LLMs. We demonstrate the applicability of our method in several LLMs, including Llama, Gemma, Mistral, Genstruct, and BERT. To our knowledge, this is the first time PCTL-based model checking has been used to check the consistency of the LLM text generation process.
- Abstract(参考訳): 本稿では,LLMテキスト生成プロセスの確率計算ツリー論理(PCTL)特性を検証するモデルチェックベースの検証手法であるLLMCHECKERを紹介する。
私たちは、通常テキスト生成中に選択されるトークンの数が限られていることを実証的に示します。
この洞察により、$\alpha$-$k$-bounded text generationが作成され、テキスト生成プロセスのすべてのステップにおいて、上位$k$トークンの$\alpha$最大累積確率に焦点を絞り込む。
本手法では,テキストの品質評価やバイアス評価などの多種多様なテキスト量化手法を併用しながら,初期文字列とそれに続く上位$kのトークンについて検討する。
しきい値$\alpha$は選択されたトークンをさらに減らし、累積確率でそれを超えるものを選択する。
LLMCHECKERは、$\alpha$-$k$-bounded LLMsのPCTL特性を正式に検証することを可能にする。
Llama, Gemma, Mistral, Genstruct, BERT などいくつかの LLM で本手法の適用性を示す。
我々の知る限り、LLMテキスト生成プロセスの一貫性を確認するためにPCTLベースのモデルチェックが使用されるのはこれが初めてである。
関連論文リスト
- RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - Segment First or Comprehend First? Explore the Limit of Unsupervised Word Segmentation with Large Language Models [92.92512796044471]
本稿では,Large Language Models (LLMs) を用いた教師なし単語セグメンテーションの限界を探索する新しいフレームワークを提案する。
我々は,LLMの「理解」を評価するために,複数の言語にまたがる単語セグメンテーションを行うために,現在主流のLLMを使用している。
本研究では,文脈情報に基づく動的$n$-gramモデルの構築を可能にする,LACAと呼ばれる新しい教師なし手法を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:48:15Z) - Zero-Shot Statistical Tests for LLM-Generated Text Detection using Finite Sample Concentration Inequalities [13.657259851747126]
コンテンツの証明は、教育機関、ソーシャルメディアプラットフォーム、企業など、多くの組織の機能に不可欠である。
LLM(Large Language Models)が生成するテキストが、人間が生成したコンテンツとほとんど区別できないようになるにつれて、この問題はますます難しくなってきている。
本稿では,あるテキストが与えられた場合,特定の LLM が生成したかどうかを特定できるのか,という問いに答える。
LLM生成したテキストは、歴史に完全に依存したシーケンシャルなプロセスとしてモデル化し、ゼロショット統計テストを設計し、2つの異なるLCM集合によって生成されたテキストを区別する。
論文 参考訳(メタデータ) (2025-01-04T23:51:43Z) - M-Ped: Multi-Prompt Ensemble Decoding for Large Language Models [12.96619003056978]
本稿では,大規模言語モデルの生成品質を高めるために設計された,新しいマルチプロンプトアンサンブルデコーディング手法を提案する。
ユニークな入力である$X$を与えられた場合、確率分布を復号し導出するために、バッチモードで$X$のプロンプトの$n$をLLMに送信する。
各トークン予測に対して,この集約された確率を用いて,バッチ内の$n$確率分布を平均化し,トークンを生成することで,アンサンブル確率を算出する。
論文 参考訳(メタデータ) (2024-12-24T09:06:58Z) - Turning Up the Heat: Min-p Sampling for Creative and Coherent LLM Outputs [3.631341123338476]
大規模言語モデル(LLM)は、各復号ステップにおける語彙上の確率分布から次のトークンをサンプリングしてテキストを生成する。
本稿では,トップトークンの確率をスケーリング係数として利用して,モデルの信頼度に基づいてサンプリングしきい値を調整する動的トランケーション手法であるmin-pサンプリングを提案する。
論文 参考訳(メタデータ) (2024-07-01T08:37:25Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
我々は,人文テキストがLLM生成テキストよりも文法的誤りを多く含んでいるという観察に基づく,シンプルで効果的なブラックボックスゼロショット検出手法を提案する。
実験結果から,本手法はゼロショット法や教師あり手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。