Fugu-MT 論文翻訳(概要): DexBERT: Effective, Task-Agnostic and Fine-grained Representation Learning of Android Bytecode

論文の概要: DexBERT: Effective, Task-Agnostic and Fine-grained Representation Learning of Android Bytecode

arxiv url: http://arxiv.org/abs/2212.05976v2
Date: Thu, 24 Aug 2023 09:00:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-25 18:30:23.431045
Title: DexBERT: Effective, Task-Agnostic and Fine-grained Representation Learning of Android Bytecode
Title（参考訳）: DexBERT: Androidバイトコードの効率的,タスク非依存,きめ細かい表現学習
Authors: Tiezhu Sun (1), Kevin Allix (1), Kisub Kim (2), Xin Zhou (2), Dongsun Kim (3), David Lo (2), Tegawend\'e F. Bissyand\'e (1) and Jacques Klein (1) ((1) University of Luxembourg, (2) Singapore Management University, (3) Kyungpook National University)
Abstract要約: そこで本研究では,Android アプリケーションで使用される主要なバイナリフォーマットである DEX バイトコードのチャンクを表現するために,BERT ライクな言語モデルを提案する。 DexBERTがDEX言語をモデル化できるかどうかを実証的に評価し、3つのクラスレベルのソフトウェアエンジニアリングタスクでモデルの有効性を評価する。
参考スコア（独自算出の注目度）: 0.40571357119162643
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The automation of a large number of software engineering tasks is becoming possible thanks to Machine Learning (ML). Central to applying ML to software artifacts (like source or executable code) is converting them into forms suitable for learning. Traditionally, researchers have relied on manually selected features, based on expert knowledge which is sometimes imprecise and generally incomplete. Representation learning has allowed ML to automatically choose suitable representations and relevant features. Yet, for Android-related tasks, existing models like apk2vec focus on whole-app levels, or target specific tasks like smali2vec, which limits their applicability. Our work is part of a new line of research that investigates effective, task-agnostic, and fine-grained universal representations of bytecode to mitigate both of these two limitations. Such representations aim to capture information relevant to various low-level downstream tasks (e.g., at the class-level). We are inspired by the field of Natural Language Processing, where the problem of universal representation was addressed by building Universal Language Models, such as BERT, whose goal is to capture abstract semantic information about sentences, in a way that is reusable for a variety of tasks. We propose DexBERT, a BERT-like Language Model dedicated to representing chunks of DEX bytecode, the main binary format used in Android applications. We empirically assess whether DexBERT is able to model the DEX language and evaluate the suitability of our model in three distinct class-level software engineering tasks: Malicious Code Localization, Defect Prediction, and Component Type Classification. We also experiment with strategies to deal with the problem of catering to apps having vastly different sizes, and we demonstrate one example of using our technique to investigate what information is relevant to a given task.
Abstract（参考訳）: 機械学習(ML)によって、多数のソフトウェアエンジニアリングタスクの自動化が可能になった。 MLをソフトウェアアーチファクト(ソースや実行可能なコードなど)に適用することの中心は、それらを学習に適した形式に変換することです。伝統的に、研究者は、しばしば不正確で一般的に不完全である専門家の知識に基づいて、手動で選択した機能に頼ってきた。表現学習により、MLは自動的に適切な表現と関連する特徴を選択できる。しかし、Android関連のタスクでは、apk2vecのような既存のモデルはアプリケーション全体のレベルにフォーカスしている。私たちの研究は、これらの2つの制限を緩和するために、バイトコードの効率的でタスクに依存しない、きめ細かい普遍的な表現を調査する新しい研究の一部です。このような表現は、様々な低レベル下流タスク(例えば、クラスレベルで)に関連する情報をキャプチャすることを目的としている。我々は自然言語処理の分野に触発され、普遍表現の問題は、文に関する抽象的な意味情報を様々なタスクで再利用することを目的として、BERTのようなユニバーサル言語モデルを構築することで解決された。我々は,Androidアプリケーションで使用される主要なバイナリフォーマットであるDEXバイトコードのチャンクを表現するために,BERTライクな言語モデルであるDexBERTを提案する。 DexBERT が DEX 言語をモデル化できるかどうかを実証的に評価し,その妥当性を3つのクラスレベルのソフトウェアエンジニアリングタスク(悪意のあるコードローカライゼーション,欠陥予測,コンポーネントタイプ分類)で評価した。また、サイズが大きく異なるアプリへのキャタリングの問題に対処する戦略を実験し、その手法を用いて与えられたタスクに関連する情報を調査する一例を示した。

関連論文リスト

LANTERN: Scalable Distillation of Large Language Models for Job-Person Fit and Explanation [16.960316035628008]
LinkedInでは、適度な評価と詳細な説明の両方を生成するために、求職者の公開プロファイルを求職要件に対して分析する必要がある。本稿では,職種適合タスクに特化したLLM知識蒸留フレームワークであるLANTERNを紹介する。 LANTERNは,作業者の適合度と説明力の両面において,タスク固有の指標を大幅に改善することを示す。
論文参考訳（メタデータ） (2025-10-07T01:10:02Z)
Evaluating Large Language Models on Non-Code Software Engineering Tasks [4.381476817430934]
大規模言語モデル(LLM)は、コード理解と生成において顕著な能力を示している。ソフトウェア工学言語理解(SELU)と呼ばれる最初の包括的なベンチマークを提示する。 SELUは、分類、回帰、名前付きエンティティ認識(NER)とマスケッド言語モデリング(MLM)のターゲットをカバーし、さまざまなソースからデータを引き出す。
論文参考訳（メタデータ） (2025-06-12T15:52:32Z)
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。 MLLM(Multimodal Large Language Models)の試験場として機能する。
論文参考訳（メタデータ） (2025-02-27T13:58:44Z)
Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文参考訳（メタデータ） (2024-04-11T04:22:15Z)
Code-Switched Language Identification is Harder Than You Think [69.63439391717691]
コードスイッチングは、文字と音声の通信において一般的な現象である。 CSコーパスの構築の応用について検討する。タスクをもっと多くの言語に拡張することで、タスクをより現実的にします。文レベルのマルチラベルタグ付け問題としてタスクを再構築し、より難易度の高いものにする。
論文参考訳（メタデータ） (2024-02-02T15:38:47Z)
Language Models are Universal Embedders [48.12992614723464]
事前学習されたトランスフォーマーデコーダは、限定的な英語データに基づいて微調整された場合、普遍的に埋め込み可能であることを示す。我々のモデルは、最小限のトレーニングデータにより、異なる埋め込みタスクにおける競争性能を達成する。これらの結果は、強力な統合インバータを構築するための有望な道の証となる。
論文参考訳（メタデータ） (2023-10-12T11:25:46Z)
Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文参考訳（メタデータ） (2023-05-18T17:59:49Z)
Toolformer: Language Models Can Teach Themselves to Use Tools [62.04867424598204]
言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。 LMは、シンプルなAPIを通じて外部ツールの使用を自覚し、両方の世界のベストを達成できることを示します。 Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測に最もうまく組み込む方法を訓練したモデルです。
論文参考訳（メタデータ） (2023-02-09T16:49:57Z)
Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文参考訳（メタデータ） (2022-10-04T21:16:48Z)
Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文参考訳（メタデータ） (2021-12-16T05:36:08Z)
XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation [80.18830380517753]
我々は新しいタスク非依存蒸留フレームワーク XtremeDistilTransformers を開発した。本研究は, 蒸留における複数のソースタスク, 拡張資源, モデルアーキテクチャの伝達可能性について検討する。
論文参考訳（メタデータ） (2021-06-08T17:49:33Z)
Zero-Shot Cross-Lingual Transfer with Meta Learning [45.29398184889296]
英語以外の言語ではほとんど、あるいは全くデータがない場合に、複数の言語でのトレーニングモデルの設定を同時に検討する。メタラーニングを用いて、この挑戦的な設定にアプローチできることが示される。我々は、標準教師付きゼロショットのクロスランガルと、異なる自然言語理解タスクのための数ショットのクロスランガル設定を用いて実験を行った。
論文参考訳（メタデータ） (2020-03-05T16:07:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。