論文の概要: A Pre-Trained BERT Model for Android Applications
- arxiv url: http://arxiv.org/abs/2212.05976v1
- Date: Mon, 12 Dec 2022 15:32:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 17:40:18.247408
- Title: A Pre-Trained BERT Model for Android Applications
- Title(参考訳): Androidアプリケーションのための事前学習BERTモデル
- Authors: Tiezhu Sun (1), Kevin Allix (1), Kisub Kim (2), Xin Zhou (2), Dongsun
Kim (3), David Lo (2), Tegawend\'e F. Bissyand\'e (1) and Jacques Klein (1)
((1) University of Luxembourg, (2) Singapore Management University, (3)
Kyungpook National University)
- Abstract要約: 我々は,バイトコードの効率,タスク非依存,きめ細かな普遍表現を研究対象とする新しい研究ラインを開発する。
我々は,DEXバイトコードのチャンクを表現するために,BERTに似た言語モデルであるDexBERTを提案する。
DexBERTがDEX言語をモデル化できるかどうかを実証的に評価し、2つのクラスレベルのソフトウェアエンジニアリングタスクでモデルの有効性を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The automation of an increasingly large number of software engineering tasks
is becoming possible thanks to Machine Learning (ML). One foundational building
block in the application of ML to software artifacts is the representation of
these artifacts (e.g., source code or executable code) into a form that is
suitable for learning. Many studies have leveraged representation learning,
delegating to ML itself the job of automatically devising suitable
representations. Yet, in the context of Android problems, existing models are
either limited to coarse-grained whole-app level (e.g., apk2vec) or conducted
for one specific downstream task (e.g., smali2vec). Our work is part of a new
line of research that investigates effective, task-agnostic, and fine-grained
universal representations of bytecode to mitigate both of these two
limitations. Such representations aim to capture information relevant to
various low-level downstream tasks (e.g., at the class-level). We are inspired
by the field of Natural Language Processing, where the problem of universal
representation was addressed by building Universal Language Models, such as
BERT, whose goal is to capture abstract semantic information about sentences,
in a way that is reusable for a variety of tasks. We propose DexBERT, a
BERT-like Language Model dedicated to representing chunks of DEX bytecode, the
main binary format used in Android applications. We empirically assess whether
DexBERT is able to model the DEX language and evaluate the suitability of our
model in two distinct class-level software engineering tasks: Malicious Code
Localization and Defect Prediction. We also experiment with strategies to deal
with the problem of catering to apps having vastly different sizes, and we
demonstrate one example of using our technique to investigate what information
is relevant to a given task.
- Abstract(参考訳): 機械学習(ML)のおかげで、ますます多くのソフトウェアエンジニアリングタスクの自動化が可能になっている。
MLのソフトウェアアーティファクトへの適用における基本的な構成要素の1つは、これらのアーティファクト(例えば、ソースコードや実行可能なコード)を学習に適した形式に表現することである。
多くの研究は表現学習を活用し、ML自体に適切な表現を自動設計する仕事を委譲している。
しかし、Androidの問題の文脈では、既存のモデルは粗い粒度のアプリケーションレベル(apk2vecなど)に制限されるか、特定の下流タスク(smali2vecなど)で実行される。
私たちの研究は、これらの2つの制限を緩和するために、バイトコードの効率的でタスクに依存しない、きめ細かい普遍的な表現を調査する新しい研究の一部です。
このような表現は、様々な低レベル下流タスク(例えば、クラスレベルで)に関連する情報をキャプチャすることを目的としている。
我々は自然言語処理の分野に触発され、普遍表現の問題は、文に関する抽象的な意味情報を様々なタスクで再利用することを目的として、BERTのようなユニバーサル言語モデルを構築することで解決された。
我々は,Androidアプリケーションで使用される主要なバイナリフォーマットであるDEXバイトコードのチャンクを表現するために,BERTライクな言語モデルであるDexBERTを提案する。
DexBERT が DEX 言語をモデル化できるかどうかを実証的に評価し、2 つのクラスレベルのソフトウェアエンジニアリングタスクでモデルの適合性を評価する。
また、サイズが大きく異なるアプリへのキャタリングの問題に対処する戦略を実験し、その手法を用いて与えられたタスクに関連する情報を調査する一例を示した。
関連論文リスト
- Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Code-Switched Language Identification is Harder Than You Think [69.63439391717691]
コードスイッチングは、文字と音声の通信において一般的な現象である。
CSコーパスの構築の応用について検討する。
タスクをもっと多くの言語に拡張することで、タスクをより現実的にします。
文レベルのマルチラベルタグ付け問題としてタスクを再構築し、より難易度の高いものにする。
論文 参考訳(メタデータ) (2024-02-02T15:38:47Z) - Language Models are Universal Embedders [48.12992614723464]
事前学習されたトランスフォーマーデコーダは、限定的な英語データに基づいて微調整された場合、普遍的に埋め込み可能であることを示す。
我々のモデルは、最小限のトレーニングデータにより、異なる埋め込みタスクにおける競争性能を達成する。
これらの結果は、強力な統合インバータを構築するための有望な道の証となる。
論文 参考訳(メタデータ) (2023-10-12T11:25:46Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - Toolformer: Language Models Can Teach Themselves to Use Tools [62.04867424598204]
言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。
LMは、シンプルなAPIを通じて外部ツールの使用を自覚し、両方の世界のベストを達成できることを示します。
Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測に最もうまく組み込む方法を訓練したモデルです。
論文 参考訳(メタデータ) (2023-02-09T16:49:57Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation [80.18830380517753]
我々は新しいタスク非依存蒸留フレームワーク XtremeDistilTransformers を開発した。
本研究は, 蒸留における複数のソースタスク, 拡張資源, モデルアーキテクチャの伝達可能性について検討する。
論文 参考訳(メタデータ) (2021-06-08T17:49:33Z) - Zero-Shot Cross-Lingual Transfer with Meta Learning [45.29398184889296]
英語以外の言語ではほとんど、あるいは全くデータがない場合に、複数の言語でのトレーニングモデルの設定を同時に検討する。
メタラーニングを用いて、この挑戦的な設定にアプローチできることが示される。
我々は、標準教師付きゼロショットのクロスランガルと、異なる自然言語理解タスクのための数ショットのクロスランガル設定を用いて実験を行った。
論文 参考訳(メタデータ) (2020-03-05T16:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。