Fugu-MT 論文翻訳(概要): Sift or Get Off the PoC: Applying Information Retrieval to Vulnerability Research with SiftRank

論文の概要: Sift or Get Off the PoC: Applying Information Retrieval to Vulnerability Research with SiftRank

arxiv url: http://arxiv.org/abs/2512.06155v1
Date: Fri, 05 Dec 2025 21:09:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-09 22:03:54.208931
Title: Sift or Get Off the PoC: Applying Information Retrieval to Vulnerability Research with SiftRank
Title（参考訳）: SiftRankによる脆弱性研究への情報検索の適用
Authors: Caleb Gross,
Abstract要約: 3つのキー機構を通じてO(n)複雑性を達成するランキングアルゴリズムであるSiftRankを提案する。 SiftRankは何千ものアイテムを直接操作し、各ドキュメントは複数のランダム化されたバッチで評価され、一貫性のない判断が軽減される。我々はN日間の脆弱性解析における実用的効果を実証し、削減されたバイナリファームウェアパッチの2,197個の変更関数のうち、脆弱性修正関数を0.82ドルの推論コストで99秒以内に特定することに成功した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Security research is fundamentally a problem of resource constraint and consequent prioritization. There is simply too much attack surface and too little time and energy to spend analyzing it all. The most effective security researchers are often those who are most skilled at intuitively deciding which part of an expansive attack surface to investigate. We demonstrate that this problem of selecting the most promising option from among many possibilities can be reframed as an information retrieval problem, and solved using document ranking techniques with LLMs performing the heavy lifting as general-purpose rankers. We present SiftRank, a ranking algorithm achieving O(n) complexity through three key mechanisms: listwise ranking using an LLM to order documents in small batches of approximately 10 items at a time; inflection-based convergence detection that adaptively terminates ranking when score distributions have stabilized; and iterative refinement that progressively focuses ranking effort on the most relevant documents. Unlike existing reranking approaches that require a separate first-stage retrieval step to narrow datasets to approximately 100 candidates, SiftRank operates directly on thousands of items, with each document evaluated across multiple randomized batches to mitigate inconsistent judgments by an LLM. We demonstrate practical effectiveness on N-day vulnerability analysis, successfully identifying a vulnerability-fixing function among 2,197 changed functions in a stripped binary firmware patch within 99 seconds at an inference cost of $0.82. Our approach enables scalable security prioritization for problems that are generally constrained by manual analysis, requiring only standard LLM API access without specialized infrastructure, embedding, or domain-specific fine-tuning. An open-source implementation of SiftRank may be found at https://github.com/noperator/siftrank.
Abstract（参考訳）: セキュリティ研究は基本的に資源制約とそれに伴う優先順位付けの問題である。単に攻撃面が多すぎ、すべての分析に費やす時間とエネルギーが少なすぎるだけです。最も効果的なセキュリティ研究者は、しばしば、広範囲にわたる攻撃面のどの部分を調査するかを直感的に決定する最も熟練した研究者である。本稿では,多種多様な可能性の中から,最も有望な選択肢を選択するという問題を情報検索問題として再編成できることを実証し,LLMによる文書ランク付け手法を用いて,汎用的なランク付けを行う方法を提案する。本稿では,O(n) の複雑性を達成するアルゴリズムである SiftRank について紹介する。LLM を用いて約10項目の小さなバッチで文書を注文するリストワイドランキング,スコア分布の安定化時に順応的にランキングを終了するインフレクションベースの収束検出,そして最も関連性の高い文書のランク付け作業に着目する反復改良である。データセットを約100の候補に絞り込むために、別の第1段階の検索ステップを必要とする既存のリグレードアプローチとは異なり、SiftRankは数千のアイテムを直接操作し、各ドキュメントは複数のランダム化されたバッチで評価され、LCMによる一貫性のない判断を緩和する。我々はN日間の脆弱性解析における実用的効果を実証し、削減されたバイナリファームウェアパッチの2,197個の変更関数のうち、脆弱性修正関数を0.82ドルの推論コストで99秒以内に特定することに成功した。当社のアプローチでは,手動解析によって一般的に制約される問題に対して,特殊なインフラストラクチャや組み込み,ドメイン固有の微調整を必要とせず,標準的なLLM APIアクセスのみを必要とする,スケーラブルなセキュリティ優先化を実現している。 SiftRankのオープンソース実装はhttps://github.com/noperator/siftrank.comで見ることができる。

関連論文リスト

The Vulnerability of LLM Rankers to Prompt Injection Attacks [40.03039307576983]
大規模言語モデル(LLM)は強力なリランカとして登場した。最近の研究では、候補文書に埋め込まれた単純なプロンプトインジェクションは、LCMのランキング決定を著しく変える可能性があることが示されている。
論文参考訳（メタデータ） (2026-02-18T06:19:08Z)
Favia: Forensic Agent for Vulnerability-fix Identification and Analysis [5.43098755190303]
脆弱性修正識別のための法医学的エージェントベースのフレームワークであるFaviaを提案する。 Faviaは、スケーラブルな候補ランキングと、深く反復的なセマンティック推論を組み合わせる。私たちは、実世界の3,708のリポジトリから800万以上のコミットからなる大規模なデータセットであるCVEVC上で、Faviaを評価しました。
論文参考訳（メタデータ） (2026-02-13T00:51:22Z)
RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文参考訳（メタデータ） (2026-01-30T08:29:01Z)
Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。 Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。 SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文参考訳（メタデータ） (2025-09-25T14:05:55Z)
FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文参考訳（メタデータ） (2025-08-07T22:15:22Z)
Think Broad, Act Narrow: CWE Identification with Multi-Agent Large Language Models [0.09208007322096533]
近年,脆弱性検出のための機械学習と大規模言語モデル (LLM) が注目されている。セキュリティの弱点(CWE)を特定するための新しいマルチエージェントLCM手法を提案する。 PrimeVulデータセットでは、研究対象の脆弱性関数の40.9%で適切なCWEを正しく識別する。
論文参考訳（メタデータ） (2025-08-02T17:57:46Z)
Reasoning with LLMs for Zero-Shot Vulnerability Detection [0.9208007322096533]
textbfVulnSageは,多種多様な大規模オープンソースソフトウェアプロジェクトから収集した,総合的な評価フレームワークである。このフレームワークは、関数レベル、ファイルレベル、関数間の複数の粒度解析をサポートする。 Baseline、Chain-of-context、Think、Think & verifyの4つの異なるゼロショットプロンプト戦略を採用している。
論文参考訳（メタデータ） (2025-03-22T23:59:17Z)
LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文参考訳（メタデータ） (2025-03-04T12:55:07Z)
Guiding Retrieval using LLM-based Listwise Rankers [15.3583908068962]
本稿では,リストワイズ設定をサポートする既存適応検索手法の適応性を提案する。具体的には、提案アルゴリズムは、初期ランキングとフィードバック文書の両方から結果をマージする。我々は,適応プロセスの最小化によるLLM推論の総数とオーバーヘッドを一定に保ちながら,nDCG@10を最大13.23%改善し,28.02%リコールできることを示した。
論文参考訳（メタデータ） (2025-01-15T22:23:53Z)
InputSnatch: Stealing Input in LLM Services via Timing Side-Channel Attacks [9.748438507132207]
大規模言語モデル (LLM) には広範な知識と質問応答能力がある。キャッシュ共有メソッドは、キャッシュされた状態や、同じまたは同様の推論要求に対するレスポンスを再利用することで、効率を高めるために一般的に使用される。 LLMの推論において入力盗難を実行するための新しいタイミングベースのサイドチャネル攻撃を提案する。
論文参考訳（メタデータ） (2024-11-27T10:14:38Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)
How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文参考訳（メタデータ） (2023-05-19T17:33:38Z)
Pre-training Tasks for Embedding-based Large-scale Retrieval [68.01167604281578]
本稿では,大規模クエリ文書検索問題について考察する。クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
論文参考訳（メタデータ） (2020-02-10T16:44:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。