論文の概要: R1-Fuzz: Specializing Language Models for Textual Fuzzing via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.20384v1
- Date: Sun, 21 Sep 2025 15:21:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.487803
- Title: R1-Fuzz: Specializing Language Models for Textual Fuzzing via Reinforcement Learning
- Title(参考訳): R1-Fuzz:強化学習によるテキストファジリングのための言語モデル
- Authors: Jiayi Lin, Liangcai Su, Junzhe Li, Chenxiong Qian,
- Abstract要約: ファジィングは脆弱性発見には有効だが、コンパイラやインタプリタ、データベースエンジンといった複雑なターゲットと競合する。
本稿では、R1-Fuzzを提案する。R1-Fuzzは、強化学習(RL)を利用して、コスト効率の高い言語モデルを専門化し、それらをファジング入力生成のために統合するフレームワークである。
R1-Fuzzは最先端のファズーよりも75%高いカバレッジを実現し、これまで不明な29の脆弱性を発見した。
- 参考スコア(独自算出の注目度): 7.526332397353976
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fuzzing is effective for vulnerability discovery but struggles with complex targets such as compilers, interpreters, and database engines, which accept textual input that must satisfy intricate syntactic and semantic constraints. Although language models (LMs) have attracted interest for this task due to their vast latent knowledge and reasoning potential, their practical adoption has been limited. The major challenges stem from insufficient exploration of deep program logic among real-world codebases, and the high cost of leveraging larger models. To overcome these challenges, we propose R1-Fuzz, the first framework that leverages reinforcement learning (RL) to specialize cost-efficient LMs and integrate them for complex textual fuzzing input generation. R1-Fuzz introduces two key designs: coverage-slicing-based question construction and a distance-based reward calculation. Through RL-based post-training of a model with our constructed dataset, R1-Fuzz designs a fuzzing workflow that tightly integrates LMs to reason deep program semantics during fuzzing. Evaluations on diverse real-world targets show that our design enables a small model, named R1-Fuzz-7B, to rival or even outperform much larger models in real-world fuzzing. Notably, R1-Fuzz achieves up to 75\% higher coverage than state-of-the-art fuzzers and discovers 29 previously unknown vulnerabilities, demonstrating its practicality.
- Abstract(参考訳): ファジィングは脆弱性発見には有効だが、複雑な構文や意味的な制約を満たさなければならないテキスト入力を受け入れるコンパイラやインタプリタ、データベースエンジンといった複雑なターゲットと競合する。
言語モデル(LM)は、膨大な潜在知識と推論可能性から、この課題への関心を集めているが、その実践的採用は限られている。
主な課題は、現実世界のコードベース間の深いプログラムロジックの探索が不十分であることと、より大きなモデルを活用する上でのコストの高さにある。
これらの課題を克服するために、R1-Fuzzを提案する。R1-Fuzzは、強化学習(RL)を利用して、コスト効率の高いLMを専門化し、複雑なテキストファズ入力生成のためにそれらを統合するフレームワークである。
R1-Fuzzは、カバレッジスライシングベースの質問構築と距離ベースの報酬計算という、2つの重要な設計を導入している。
R1-Fuzzは,構築したデータセットを用いたモデルの後学習を通じてファジィワークフローを設計し,ファジィ中に深いプログラム意味論を推論するためにLMを密に統合する。
R1-Fuzz-7Bという小さなモデルで、現実世界のファジリングにおいて、はるかに大きなモデルに匹敵したり、性能を上回ります。
特に、R1-Fuzzは最先端のファジィよりも75%高いカバレッジを実現し、29の既知の脆弱性を発見し、その実用性を示している。
関連論文リスト
- AR$^2$: Adversarial Reinforcement Learning for Abstract Reasoning in Large Language Models [12.484537674896908]
本稿では,大規模言語モデル (LLM) の抽象化能力を高めるために設計された新しいフレームワークである AR$2$ (Adversarial Reinforcement Learning for Abstract Reasoning) を提案する。
AR$2$は、基本ロジックを変更することなく、カーネル問題を物語に富んだ、挑戦的な記述に変換するために教師モデルを採用している。
学生符号化モデルは、基礎となる計算カーネルを抽出することにより、これらの複雑な物語問題を解決するために訓練される。
論文 参考訳(メタデータ) (2025-08-27T17:26:44Z) - Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning [3.364797975300393]
マルチモーダル大規模言語モデル(MLLM)の推論能力向上を目的とした新しいフレームワークであるObserve-R1を提案する。
我々は,RL学習におけるデータサンプルの難易度と難易度に応じて整理し,サンプル化したNeuraLadderデータセットを構築した。
Qwen2.5-VL-3B と Qwen2.5-VL-7B のニューララダーデータセットから得られた20kサンプルによる実験により、Observe-R1 は推論と一般的なベンチマークの両方において、より大きな推論モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-18T14:08:03Z) - R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model [70.77691645678804]
非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。
本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
論文 参考訳(メタデータ) (2025-03-07T04:21:47Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - RIRO: Reshaping Inputs, Refining Outputs Unlocking the Potential of Large Language Models in Data-Scarce Contexts [0.0]
大規模言語モデル (LLM) は、テキスト生成、要約、質問応答といった分野において優れた、かなり高度な自然言語処理を持つ。
それらの能力にもかかわらず、これらのモデルは、小さなドメイン固有のデータセットに微調整された場合、課題に直面します。
本稿では,データスカース環境の性能向上を目的とした新しい2層アーキテクチャRIROを紹介する。
論文 参考訳(メタデータ) (2024-12-15T15:48:37Z) - U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF [10.81723269312202]
Mixture-of-Experts (MoE) は、より大きく、より有能な言語モデルへのエネルギー効率の良い経路として提案されている。
提案したモデルを大規模インナーソースデータセット(160k時間)でベンチマークする。
論文 参考訳(メタデータ) (2024-04-25T08:34:21Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。