Fugu-MT 論文翻訳(概要): Pop Quiz! Can a Large Language Model Help With Reverse Engineering?

論文の概要: Pop Quiz! Can a Large Language Model Help With Reverse Engineering?

arxiv url: http://arxiv.org/abs/2202.01142v1
Date: Wed, 2 Feb 2022 17:09:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-03 15:15:46.749738
Title: Pop Quiz! Can a Large Language Model Help With Reverse Engineering?
Title（参考訳）: ポップクイズ! 大規模言語モデルはリバースエンジニアリングに役立つか?
Authors: Hammond Pearce and Benjamin Tan and Prashanth Krishnamurthy and Farshad Khorrami and Ramesh Karri and Brendan Dolan-Gavitt
Abstract要約: 大規模な言語モデル(OpenAIのCodexなど)は、印象的なゼロショットマルチタスク機能を示している。この能力がリバースエンジニアリングに役立つかどうかを検討する。重要な点は、LLMはまだゼロショットリバースエンジニアリングの準備が整っていないことだ。
参考スコア（独自算出の注目度）: 23.710569690067757
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (such as OpenAI's Codex) have demonstrated impressive zero-shot multi-task capabilities in the software domain, including code explanation. In this work, we examine if this ability can be used to help with reverse engineering. Specifically, we investigate prompting Codex to identify the purpose, capabilities, and important variable names or values from code, even when the code is produced through decompilation. Alongside an examination of the model's responses in answering open-ended questions, we devise a true/false quiz framework to characterize the performance of the language model. We present an extensive quantitative analysis of the measured performance of the language model on a set of program purpose identification and information extraction tasks: of the 136,260 questions we posed, it answered 72,754 correctly. A key takeaway is that while promising, LLMs are not yet ready for zero-shot reverse engineering.
Abstract（参考訳）: 大規模な言語モデル(OpenAIのCodexなど)は、コード説明を含む、ソフトウェア領域で印象的なゼロショットマルチタスク機能を示している。本研究では,この能力がリバースエンジニアリングに役立つかどうかを検討する。具体的には、コードが逆コンパイルによって生成される場合でも、Codexにコードから目的、機能、重要な変数名や値を特定するよう促す。オープンな質問に答える際のモデルの応答を調べるとともに、言語モデルの性能を特徴付けるための真偽クイズフレームワークを考案する。そこで本研究では,プログラムの目的同定と情報抽出タスクにおける言語モデルの計測性能を定量的に分析し,136,260の質問に対して72,754の回答を得た。重要な点は、LLMはまだゼロショットリバースエンジニアリングの準備が整っていないことだ。

関連論文リスト

Self-Questioning Language Models [51.75087358141567]
本稿では,提案者がトピックを与えられ,解答者に対する質問を生成する非対称なセルフプレイフレームワークを提案する。提案者と解答者はともに強化学習を通じて訓練される。 3桁の乗算、OMEGAベンチマークの代数問題、Codeforcesのプログラミング問題である。
論文参考訳（メタデータ） (2025-08-05T17:51:33Z)
LLM Benchmarking with LLaMA2: Evaluating Code Development Performance Across Multiple Programming Languages [0.1906498126334485]
本稿では,Llama 2-70Bモデルがプログラミング言語で書かれた科学アプリケーションを自動化する能力について述べる。コード、ドキュメンテーション、ユニットテストを生成するためのモデルの能力と、既存のコードをプログラミング言語間で翻訳する能力を評価します。以上の結果から,Llama 2-70Bは,より単純な数値処理のために,構文的に正しい関数コードを生成することが多いが,より複雑で並列化された,あるいは分散計算ではかなりの困難に直面することが示唆された。
論文参考訳（メタデータ） (2025-03-24T23:46:14Z)
MQA-KEAL: Multi-hop Question Answering under Knowledge Editing for Arabic Language [7.488965571323756]
アラビア語(MQA-KEAL)の知識編集に基づくマルチホップ質問回答を提案する。 MQA-KEALは、知識編集を構造化知識単位として外部メモリに格納する。また,KE による MQA の厳密な性能評価のための MQA-AEVAL も提案した。
論文参考訳（メタデータ） (2024-09-18T18:40:02Z)
CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。 Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文参考訳（メタデータ） (2024-08-23T11:43:00Z)
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文参考訳（メタデータ） (2024-06-22T15:52:04Z)
Look Before You Leap: A Universal Emergent Decomposition of Retrieval Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。 ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。 LMは内部的にモジュール方式で検索タスクを分解する。
論文参考訳（メタデータ） (2023-12-13T18:36:43Z)
The Consensus Game: Language Model Generation via Equilibrium Search [73.51411916625032]
言語モデル復号のための学習不要なゲーム理論を新たに導入する。本手法では,正規化不完全情報シーケンシャルシグナリングゲームとして,言語モデルの復号化を行う。 EQUILIBRium-RANKINGをLLaMA-7Bに適用すると、より大型のLLaMA-65BとPaLM-540Bより優れた性能を発揮する。
論文参考訳（メタデータ） (2023-10-13T14:27:21Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
Bridging the Language Gap: Knowledge Injected Multilingual Question Answering [19.768708263635176]
本稿では,異なる言語を理解するモデルの能力を高めるために,一般化された言語間移動フレームワークを提案する。実世界のデータセット MLQA に対する実験結果から,提案手法は大きなマージンで性能を向上できることが示された。
論文参考訳（メタデータ） (2023-04-06T15:41:25Z)
AstBERT: Enabling Language Model for Code Understanding with Abstract Syntax Tree [3.1087379479634927]
抽象構文木(AST)を用いてプログラミング言語(PL)をよりよく理解することを目的とした事前学習型言語モデルAstBERTモデルを提案する。具体的には、GitHubから大量のソースコード(javaとpythonの両方)を収集し、ソースコードに関する情報を解釈して統合することができます。実験結果から,我々のAstBERTモデルが両下流タスクの最先端性能を達成することが示された。
論文参考訳（メタデータ） (2022-01-20T03:27:26Z)
X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文参考訳（メタデータ） (2020-10-13T05:29:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。