論文の概要: DexBERT: Effective, Task-Agnostic and Fine-grained Representation
Learning of Android Bytecode
- arxiv url: http://arxiv.org/abs/2212.05976v2
- Date: Thu, 24 Aug 2023 09:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 18:30:23.431045
- Title: DexBERT: Effective, Task-Agnostic and Fine-grained Representation
Learning of Android Bytecode
- Title(参考訳): DexBERT: Androidバイトコードの効率的,タスク非依存,きめ細かい表現学習
- Authors: Tiezhu Sun (1), Kevin Allix (1), Kisub Kim (2), Xin Zhou (2), Dongsun
Kim (3), David Lo (2), Tegawend\'e F. Bissyand\'e (1) and Jacques Klein (1)
((1) University of Luxembourg, (2) Singapore Management University, (3)
Kyungpook National University)
- Abstract要約: そこで本研究では,Android アプリケーションで使用される主要なバイナリフォーマットである DEX バイトコードのチャンクを表現するために,BERT ライクな言語モデルを提案する。
DexBERTがDEX言語をモデル化できるかどうかを実証的に評価し、3つのクラスレベルのソフトウェアエンジニアリングタスクでモデルの有効性を評価する。
- 参考スコア(独自算出の注目度): 0.40571357119162643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The automation of a large number of software engineering tasks is becoming
possible thanks to Machine Learning (ML). Central to applying ML to software
artifacts (like source or executable code) is converting them into forms
suitable for learning. Traditionally, researchers have relied on manually
selected features, based on expert knowledge which is sometimes imprecise and
generally incomplete. Representation learning has allowed ML to automatically
choose suitable representations and relevant features. Yet, for Android-related
tasks, existing models like apk2vec focus on whole-app levels, or target
specific tasks like smali2vec, which limits their applicability. Our work is
part of a new line of research that investigates effective, task-agnostic, and
fine-grained universal representations of bytecode to mitigate both of these
two limitations. Such representations aim to capture information relevant to
various low-level downstream tasks (e.g., at the class-level). We are inspired
by the field of Natural Language Processing, where the problem of universal
representation was addressed by building Universal Language Models, such as
BERT, whose goal is to capture abstract semantic information about sentences,
in a way that is reusable for a variety of tasks. We propose DexBERT, a
BERT-like Language Model dedicated to representing chunks of DEX bytecode, the
main binary format used in Android applications. We empirically assess whether
DexBERT is able to model the DEX language and evaluate the suitability of our
model in three distinct class-level software engineering tasks: Malicious Code
Localization, Defect Prediction, and Component Type Classification. We also
experiment with strategies to deal with the problem of catering to apps having
vastly different sizes, and we demonstrate one example of using our technique
to investigate what information is relevant to a given task.
- Abstract(参考訳): 機械学習(ML)によって、多数のソフトウェアエンジニアリングタスクの自動化が可能になった。
MLをソフトウェアアーチファクト(ソースや実行可能なコードなど)に適用することの中心は、それらを学習に適した形式に変換することです。
伝統的に、研究者は、しばしば不正確で一般的に不完全である専門家の知識に基づいて、手動で選択した機能に頼ってきた。
表現学習により、MLは自動的に適切な表現と関連する特徴を選択できる。
しかし、Android関連のタスクでは、apk2vecのような既存のモデルはアプリケーション全体のレベルにフォーカスしている。
私たちの研究は、これらの2つの制限を緩和するために、バイトコードの効率的でタスクに依存しない、きめ細かい普遍的な表現を調査する新しい研究の一部です。
このような表現は、様々な低レベル下流タスク(例えば、クラスレベルで)に関連する情報をキャプチャすることを目的としている。
我々は自然言語処理の分野に触発され、普遍表現の問題は、文に関する抽象的な意味情報を様々なタスクで再利用することを目的として、BERTのようなユニバーサル言語モデルを構築することで解決された。
我々は,Androidアプリケーションで使用される主要なバイナリフォーマットであるDEXバイトコードのチャンクを表現するために,BERTライクな言語モデルであるDexBERTを提案する。
DexBERT が DEX 言語をモデル化できるかどうかを実証的に評価し,その妥当性を3つのクラスレベルのソフトウェアエンジニアリングタスク(悪意のあるコードローカライゼーション,欠陥予測,コンポーネントタイプ分類)で評価した。
また、サイズが大きく異なるアプリへのキャタリングの問題に対処する戦略を実験し、その手法を用いて与えられたタスクに関連する情報を調査する一例を示した。
関連論文リスト
- Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Code-Switched Language Identification is Harder Than You Think [69.63439391717691]
コードスイッチングは、文字と音声の通信において一般的な現象である。
CSコーパスの構築の応用について検討する。
タスクをもっと多くの言語に拡張することで、タスクをより現実的にします。
文レベルのマルチラベルタグ付け問題としてタスクを再構築し、より難易度の高いものにする。
論文 参考訳(メタデータ) (2024-02-02T15:38:47Z) - Language Models are Universal Embedders [48.12992614723464]
事前学習されたトランスフォーマーデコーダは、限定的な英語データに基づいて微調整された場合、普遍的に埋め込み可能であることを示す。
我々のモデルは、最小限のトレーニングデータにより、異なる埋め込みタスクにおける競争性能を達成する。
これらの結果は、強力な統合インバータを構築するための有望な道の証となる。
論文 参考訳(メタデータ) (2023-10-12T11:25:46Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - Toolformer: Language Models Can Teach Themselves to Use Tools [62.04867424598204]
言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。
LMは、シンプルなAPIを通じて外部ツールの使用を自覚し、両方の世界のベストを達成できることを示します。
Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測に最もうまく組み込む方法を訓練したモデルです。
論文 参考訳(メタデータ) (2023-02-09T16:49:57Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation [80.18830380517753]
我々は新しいタスク非依存蒸留フレームワーク XtremeDistilTransformers を開発した。
本研究は, 蒸留における複数のソースタスク, 拡張資源, モデルアーキテクチャの伝達可能性について検討する。
論文 参考訳(メタデータ) (2021-06-08T17:49:33Z) - Zero-Shot Cross-Lingual Transfer with Meta Learning [45.29398184889296]
英語以外の言語ではほとんど、あるいは全くデータがない場合に、複数の言語でのトレーニングモデルの設定を同時に検討する。
メタラーニングを用いて、この挑戦的な設定にアプローチできることが示される。
我々は、標準教師付きゼロショットのクロスランガルと、異なる自然言語理解タスクのための数ショットのクロスランガル設定を用いて実験を行った。
論文 参考訳(メタデータ) (2020-03-05T16:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。