論文の概要: Crossing the NL/PL Divide: Information Flow Analysis Across the NL/PL Boundary in LLM-Integrated Code
- arxiv url: http://arxiv.org/abs/2603.28345v1
- Date: Mon, 30 Mar 2026 12:14:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.37995
- Title: Crossing the NL/PL Divide: Information Flow Analysis Across the NL/PL Boundary in LLM-Integrated Code
- Title(参考訳): NL/PLディバイドを交差する:LLM符号化符号におけるNL/PL境界における情報フロー解析
- Authors: Zihao Xu, Xiao Cheng, Ruijie Meng, Yuekang Li,
- Abstract要約: LLM API呼び出しは、既存のプログラム分析が渡せない境界を作る。
この境界を橋渡しする最初の情報フロー法を提案する。
実世界の4,154個のPythonファイルから9,083個のプレースホルダー出力ペアをラベル付けします。
- 参考スコア(独自算出の注目度): 13.616177586397656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM API calls are becoming a ubiquitous program construct, yet they create a boundary that no existing program analysis can cross: runtime values enter a natural-language prompt, undergo opaque processing inside the LLM, and re-emerge as code, SQL, JSON, or text that the program consumes. Every analysis that tracks data across function boundaries, including taint analysis, program slicing, dependency analysis, and change-impact analysis, relies on dataflow summaries of callee behavior. LLM calls have no such summaries, breaking all of these analyses at what we call the NL/PL boundary. We present the first information flow method to bridge this boundary. Grounded in quantitative information flow theory, our taxonomy defines 24 labels along two orthogonal dimensions: information preservation level (from lexically preserved to fully blocked) and output modality (natural language, structured format, executable artifact). We label 9,083 placeholder-output pairs from 4,154 real-world Python files and validate reliability with Cohen's $κ= 0.82$ and near-complete coverage (0.01\% unclassifiable). We demonstrate the taxonomy's utility on two downstream applications: (1)~a two-stage taint propagation pipeline combining taxonomy-based filtering with LLM verification achieves $F_1 = 0.923$ on 353 expert-annotated pairs, with cross-language validation on six real-world OpenClaw prompt injection cases further confirming effectiveness; (2)~taxonomy-informed backward slicing reduces slice size by a mean of 15\% in files containing non-propagating placeholders. Per-label analysis reveals that four blocked labels account for nearly all non-propagating cases, providing actionable filtering criteria for tool builders.
- Abstract(参考訳): LLM APIコールはユビキタスなプログラムコンストラクトになりつつあるが、既存のプログラム分析ではクロスできないバウンダリを生成する。ランタイム値は自然言語プロンプトを入力し、LLM内部で不透明な処理を実行し、プログラムが消費するコード、SQL、JSON、テキストとして再エマージする。
テナント分析、プログラムスライシング、依存性分析、変更影響分析など、関数境界を越えたデータを追跡するすべての分析は、呼び出し者の振る舞いに関するデータフローの要約に依存する。
LLM呼び出しにはそのような要約はなく、NL/PL境界と呼ばれる全ての解析を破る。
この境界を橋渡しする最初の情報フロー法を提案する。
定量的情報フロー理論に基づく分類学では、情報保存レベル(語彙的に保存されるものから完全にブロックされるものまで)と出力モダリティ(自然言語、構造化形式、アーティファクト)の2つの直交次元に沿って24のラベルを定義している。
実世界の4,154のPythonファイルから9,083のプレースホルダー出力ペアをラベル付けし、Cohenの$κ= 0.82$とほぼ完全なカバレッジ(0.01\%は未分類)で信頼性を検証する。
LLM検証と分類に基づくフィルタリングを組み合わせた2段階のテナント伝搬パイプラインは、353のエキスパートアノテーションペアに対して$F_1 = 0.923$を達成し、実際の6つのOpenClawインジェクションケースに対してクロス言語検証を行い、さらに有効性を確認した。
ラベルごとの分析では、4つのブロックされたラベルがほぼすべての非プロパゲートケースをカバーし、ツールビルダーに対して実行可能なフィルタリング基準を提供することが明らかになった。
関連論文リスト
- Beyond Linear LLM Invocation: An Efficient and Effective Semantic Filter Paradigm [17.52767415071768]
Clustering-Sampling-Voting(CSV)は、エラー保証を提供しながら、呼び出しをサブ線形の複雑さに還元するフレームワークである。
CSVはセマンティッククラスタをセマンティッククラスタに組み込み、評価のために小さなサブセットをサンプリングし、2つの投票戦略を通じてクラスタレベルのラベルを推論する。
論文 参考訳(メタデータ) (2026-03-05T04:37:15Z) - Rewriting Pre-Training Data Boosts LLM Performance in Math and Code [21.587613905318705]
Llama 3.3 Community Licenseの下でリリースされた2つのデータセットを導入し、大きな言語モデル(LLM)のパフォーマンスを大幅に向上させる。
SwallowCodeはPythonスニペットを,構文検証,ピリントベースのスタイルフィルタリング,2段階の書き換えプロセスという,新しい4段階のパイプラインを通じて洗練する。
We show that continual pre-training of Llama-3.1-8B with SwallowCode boosts pass@1 by +17.0 on HumanEval and +17.7 on HumanEval+ than Stack-Edu。
論文 参考訳(メタデータ) (2025-05-05T07:38:43Z) - Beyond Next Token Probabilities: Learnable, Fast Detection of Hallucinations and Data Contamination on LLM Output Distributions [60.43398881149664]
LLM出力シグナチャの効率的な符号化を訓練した軽量アテンションベースアーキテクチャであるLOS-Netを紹介する。
非常に低い検出レイテンシを維持しながら、さまざまなベンチマークやLLMで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z) - LLMDFA: Analyzing Dataflow in Code with Large Language Models [8.92611389987991]
本稿では,コンパイル不要でカスタマイズ可能なデータフロー解析フレームワークLLMDFAを提案する。
問題をいくつかのサブタスクに分解し、一連の新しい戦略を導入する。
LLMDFAは平均87.10%の精度と80.77%のリコールを達成し、F1スコアを最大0.35に向上させた。
論文 参考訳(メタデータ) (2024-02-16T15:21:35Z) - Beyond Traditional Benchmarks: Analyzing Behaviors of Open LLMs on Data-to-Text Generation [0.0]
データ・トゥ・テキスト(D2T)生成タスクにおけるオープン・大規模言語モデル(LLM)の挙動を解析する。
オープン LLM は,Quintd で収集した共通フォーマットのデータから,ゼロショット設定で,ゆるやかで一貫性のあるテキストを生成することができる。
論文 参考訳(メタデータ) (2024-01-18T18:15:46Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。