論文の概要: Less Is More: Measuring How LLM Involvement affects Chatbot Accuracy in Static Analysis
- arxiv url: http://arxiv.org/abs/2604.21746v1
- Date: Thu, 23 Apr 2026 14:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.664749
- Title: Less Is More: Measuring How LLM Involvement affects Chatbot Accuracy in Static Analysis
- Title(参考訳): LLMの関与が静的解析におけるチャットボットの精度に与える影響を測る
- Authors: Krishna Narasimhan,
- Abstract要約: 大規模言語モデルは、自然言語を通して静的解析ツールにアクセスできるようにするために、ますます使われている。
自然言語をJoernのクエリ言語cpgqlに変換するために,LLMの関与範囲に沿って3つのアーキテクチャを比較した。
これらは、3つの複雑性層にわたる20のコード解析タスクのベンチマークで評価される。
- 参考スコア(独自算出の注目度): 2.335152769484958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly used to make static analysis tools accessible through natural language, yet existing systems differ in how much they delegate to the LLM without treating the degree of delegation as an independent variable. We compare three architectures along a spectrum of LLM involvement for translating natural language to Joern's query language \cpgql{}: direct query generation (\approach{1}), generation of a schema-constrained JSON intermediate representation (\approach{2}), and tool-augmented agentic generation (\approach{3}). These are evaluated on a benchmark of 20 code analysis tasks across three complexity tiers, using four open-weight models in a 2\(\times\)2 design (two model families \(\times\) two scales), each with three repetitions. The structured intermediate representation (\approach{2}) achieves the highest result match rates, outperforming direct generation by 15--25 percentage points on large models and surpassing the agentic approach despite the latter consuming 8\(\times\) more tokens. The benefit of structured intermediates is most pronounced for large models; for small models, schema compliance becomes the bottleneck. These findings suggest that in formally structured domains, constraining the LLM's output to a well-typed intermediate representation and delegating query construction to deterministic code yields better results than either unconstrained generation or iterative tool use.
- Abstract(参考訳): 大規模言語モデルは、静的解析ツールを自然言語で利用できるようにするためにますます使われているが、既存のシステムでは、デリゲートの程度を独立変数として扱うことなく、LLMにどの程度委譲するかが異なる。
自然言語をJoernのクエリ言語に翻訳する3つのアーキテクチャについて比較する: 直接クエリ生成(\approach{1})、スキーマ制約付きJSON中間表現(\approach{2})、ツール拡張エージェント生成(\approach{3})。
これらは、3つの複雑性層にわたる20のコード解析タスクのベンチマークで評価され、2\(\times\)2の設計で4つのオープンウェイトモデル(2つのモデルファミリ \(\times\)2スケール)を使用して、それぞれ3つの繰り返しで評価される。
構造化中間表現 (\approach{2}) は、最大一致率を達成し、大きなモデル上で15-25パーセントの直接生成を上回り、後者が8\(\times\)以上のトークンを消費しているにもかかわらずエージェント的アプローチを超える。
構造化中間体の利点は、大きなモデルでは最も顕著であり、小さなモデルでは、スキーマコンプライアンスがボトルネックとなる。
これらの結果は、形式的に構造化されたドメインでは、LLMの出力を十分に型付けされた中間表現に制約し、クエリ構造を決定論的コードに委譲することで、制約のない生成や反復的なツールの使用よりも優れた結果が得られることを示唆している。
関連論文リスト
- HCRE: LLM-based Hierarchical Classification for Cross-Document Relation Extraction with a Prediction-then-Verification Strategy [54.91468501159335]
文書間関係抽出 (RE) は, 異なる文書に存在する頭部尾部エンティティ間の関係を識別することを目的としている。
本稿では,各レベルでの多視点検証により信頼性を向上させる推論戦略を提案する。
論文 参考訳(メタデータ) (2026-04-09T07:55:27Z) - ScaleDoc: Scaling LLM-based Predicates over Large Document Collections [17.985997510845873]
現代のワークロードでは、意味的理解を必要とする非構造化ドキュメントがますます多く含まれている。
textscScaleDocは、述語実行をオフライン表現フェーズと最適化されたオンラインフィルタリングフェーズに分離することで、この問題に対処する新しいシステムである。
textscScaleDocは2$times$のエンドツーエンドのスピードアップを実現し、高価なLCM呼び出しを最大85%削減し、大規模なセマンティック分析を実用的かつ効率的にする。
論文 参考訳(メタデータ) (2025-09-16T03:18:06Z) - The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [45.08958917457921]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-23T20:28:31Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Fine-tuning Large Language Models for Entity Matching [3.7277730514654555]
生成型大規模言語モデル(LLM)は、エンティティマッチングのための事前訓練された言語モデルに代わる有望な代替品である。
本稿では,エンティティマッチングのための微調整LDMの可能性について検討する。
論文 参考訳(メタデータ) (2024-09-12T16:20:57Z) - Split and Rephrase with Large Language Models [2.499907423888049]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - Retrieve-and-Fill for Scenario-based Task-Oriented Semantic Parsing [110.4684789199555]
シナリオベースのセマンティックパーシングを導入し、最初に発話の「scenario」を曖昧にする必要がある元のタスクの変種を紹介します。
この定式化により、タスクの粗くきめ細かな側面を分離することが可能となり、それぞれがオフザシェルフニューラルネットワークモジュールで解決される。
私たちのモデルはモジュール化され、差別化可能で、解釈可能で、シナリオから余分な監督を得られるようになります。
論文 参考訳(メタデータ) (2022-02-02T08:00:21Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。