論文の概要: Large Byte Model: Teaching Language Models About Compiled Code
- arxiv url: http://arxiv.org/abs/2606.02834v1
- Date: Mon, 01 Jun 2026 19:56:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.573459
- Title: Large Byte Model: Teaching Language Models About Compiled Code
- Title(参考訳): 大きなバイトコードモデル:コンパイルされたコードについて言語モデルを教える
- Authors: Florian Störtz, Catalin-Andrei Stan, Alexandru Dinu, Sandra Servia-Rodríguez, Mihaela Gaman, Calin Miron, Edward Raff,
- Abstract要約: 大規模言語モデル(LLM)は、生のバイト表現を処理し、それらに関する質問に答えることはできない。
本稿では,bespoke byteトークンを用いた語彙拡張手法をベースとした,最初のバイトネイティブLSMを提案する。
このアプリケーションには、トレーニング中にドメイン知識を提供することが不可欠であることを示す。
- 参考スコア(独自算出の注目度): 57.33411365104138
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Malware analysis starts with the raw bytes of an executable program, and tools to "lift" these to higher-level representations, such as assembly, are expensive and subject to error. Large Language Models (LLMs) cannot process raw byte representations and answer questions about them. To this end, we present the first byte-native LLM. Based on a vocabulary expansion technique using a bespoke byte tokenizer, such a model is capable of responding to complex questions about malware binaries, with accuracies ranging from 69% for malware family classification to 98% for architecture classification. Our findings indicate that providing domain knowledge during training is essential for this application -- off-the-shelf models lack both accuracy and insight. We've deployed this emerging solution to a limited number of analysts to gather feedback for further improvements.
- Abstract(参考訳): マルウェア解析は実行可能プログラムの生のバイトから始まり、これらをアセンブリのような高レベルの表現に"リフト"するツールは高価でエラーとなる。
大規模言語モデル(LLM)は、生のバイト表現を処理し、それらに関する質問に答えることはできない。
この目的のために,最初のバイトネイティブLSMを提示する。
このモデルでは, マルウェアの分類では69%, アーキテクチャ分類では98%の精度で, マルウェアのバイナリに関する複雑な質問に応答することができる。
私たちの発見は、トレーニング中にドメイン知識を提供することが、このアプリケーションにとって不可欠であることを示している。
我々は、この新興ソリューションを少数のアナリストに展開し、さらなる改善のためのフィードバックを集めました。
関連論文リスト
- Code-on-Graph: Iterative Programmatic Reasoning via Large Language Models on Knowledge Graphs [79.8277120258141]
知識グラフ(KG)は、大規模言語モデル(LLM)の限界を軽減するために広く使われている。
既存のLLM-KG統合フレームワークは、KGから事実知識を取得し、回答生成のプロンプトに注入するために、事前に定義された演算子に依存している。
LLM-KG 統合のためのプログラム推論フレームワークとして Code-on-Graph (CoG) を提案する。
論文 参考訳(メタデータ) (2026-06-02T14:22:29Z) - MalwarePT: A Binary-Level Foundation Model for Malware Analysis [18.754203608375704]
MalwarePTは、ModernBERTスタイルのエンコーダ上に構築されたマルウェア分析のためのバイナリレベルの基礎モデルである。
コードセクションバイトにBPE(Byte-pair encoding)トークンをトレーニングし、頻繁なマルチバイトパターンを圧縮する。
論文 参考訳(メタデータ) (2026-05-15T05:31:59Z) - Semantic Preprocessing for LLM-based Malware Analysis [0.0]
本稿では,Portable Executable ファイルのレポートを生成する新しい前処理手法を提案する。
この前処理の目的は、マルウェアアナリストが理解できるバイナリファイルの意味表現を集めることである。
この前処理を用いて、複雑なデータセット上で平均0.94の重み付きF1スコアを達成する。
論文 参考訳(メタデータ) (2025-06-13T13:39:00Z) - The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [45.08958917457921]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-23T20:28:31Z) - Understanding Information Storage and Transfer in Multi-modal Large Language Models [51.20840103605018]
本研究では,マルチモーダル大規模言語モデルを用いて,現実的な視覚的質問応答タスクにおいて情報処理を行う方法について検討する。
鍵となる発見は、これらのMLLMが情報記憶のためにずっと古いレイヤの自己注意ブロックに依存していることを示している。
モデル編集アルゴリズムであるMultEditを導入し、誤りを訂正し、MLLMに新しいロングテール情報を挿入する。
論文 参考訳(メタデータ) (2024-06-06T16:35:36Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。