論文の概要: Cross-Domain Evaluation of a Deep Learning-Based Type Inference System
- arxiv url: http://arxiv.org/abs/2208.09189v3
- Date: Tue, 21 Mar 2023 15:06:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 03:31:45.326872
- Title: Cross-Domain Evaluation of a Deep Learning-Based Type Inference System
- Title(参考訳): ディープラーニング型型推論システムのクロスドメイン評価
- Authors: Bernd Gruner, Tim Sonnekalb, Thomas S. Heinze, Clemens-Alexander Brust
- Abstract要約: 本研究では,最先端のディープラーニング型推論システムとして,Type4Pyについて検討する。
クラス不均衡、語彙外単語、データセットシフト、未知クラスといった問題に対処する。
我々のデータセットは、ソフトウェアプロジェクトの異なる領域における型推論システムの評価を可能にする。
- 参考スコア(独自算出の注目度): 0.44098366957385177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optional type annotations allow for enriching dynamic programming languages
with static typing features like better Integrated Development Environment
(IDE) support, more precise program analysis, and early detection and
prevention of type-related runtime errors. Machine learning-based type
inference promises interesting results for automating this task. However, the
practical usage of such systems depends on their ability to generalize across
different domains, as they are often applied outside their training domain. In
this work, we investigate Type4Py as a representative of state-of-the-art deep
learning-based type inference systems, by conducting extensive cross-domain
experiments. Thereby, we address the following problems: class imbalances,
out-of-vocabulary words, dataset shifts, and unknown classes. To perform such
experiments, we use the datasets ManyTypes4Py and CrossDomainTypes4Py. The
latter we introduce in this paper. Our dataset enables the evaluation of type
inference systems in different domains of software projects and has over
1,000,000 type annotations mined on the platforms GitHub and Libraries. It
consists of data from the two domains web development and scientific
calculation. Through our experiments, we detect that the shifts in the dataset
and the long-tailed distribution with many rare and unknown data types decrease
the performance of the deep learning-based type inference system drastically.
In this context, we test unsupervised domain adaptation methods and fine-tuning
to overcome these issues. Moreover, we investigate the impact of
out-of-vocabulary words.
- Abstract(参考訳): オプション型アノテーションにより、より優れた統合開発環境(IDE)サポート、より正確なプログラム分析、型関連のランタイムエラーの早期検出と防止など、静的型付け機能を備えた動的プログラミング言語の強化が可能になる。
機械学習ベースの型推論は、このタスクの自動化に興味深い結果をもたらす。
しかし、そのようなシステムの実践的利用は、訓練領域外に適用されることが多いため、異なる領域にまたがる一般化能力に依存する。
本研究では,最先端の深層学習に基づく型推論システムであるType4Pyについて,広範囲にわたるクロスドメイン実験を行うことにより検討する。
これにより、クラス不均衡、語彙外単語、データセットシフト、未知クラスといった問題に対処する。
このような実験を行うには、MultiTypes4PyとCrossDomainTypes4Pyのデータセットを使用します。
後者は,本論文で紹介する。
当社のデータセットは、ソフトウェアプロジェクトのさまざまなドメインにおける型推論システムの評価を可能にし、githubとライブラリ上に1000,000以上の型アノテーションをマイニングしています。
web開発と科学計算の2つのドメインのデータから成り立っている。
実験により,データセットのシフトと,未知データ型が多数存在するロングテール分布が,深層学習型推論システムの性能を劇的に低下させることを確認した。
この文脈では、これらの問題を克服するために教師なしのドメイン適応法と微調整をテストする。
さらに,語彙外単語の影響について検討した。
関連論文リスト
- Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - TIPICAL -- Type Inference for Python In Critical Accuracy Level [1.1666234644810896]
TIPICALは、深い類似性学習と新規性検出を組み合わせた手法である。
本研究では,未知のデータ型と不正確なデータ型を抽出し,高い信頼度でデータ型を予測できることを示す。
論文 参考訳(メタデータ) (2023-08-04T19:16:23Z) - Meta-learning Pathologies from Radiology Reports using Variance Aware
Prototypical Networks [3.464871689508835]
本稿では,数ショットのテキスト分類のためのプロトタイプネットワークの簡易拡張を提案する。
我々の主な考えは、クラスプロトタイプをガウスに置き換え、サンプルを適切なクラスセントロイドの近くでクラスタ化することを奨励する正規化項を導入することである。
論文 参考訳(メタデータ) (2022-10-22T05:22:29Z) - Panning for gold: Lessons learned from the platform-agnostic automated
detection of political content in textual data [48.7576911714538]
異なるプラットフォーム間で政治的コンテンツを検出するために、これらの技術がどのように使用できるかについて議論する。
辞書,教師付き機械学習,ニューラルネットワークに依存する3つの検出手法のパフォーマンスを比較した。
この結果から,ニューラルネットワークと機械学習に基づくモデルによって達成されるノイズの少ないデータに対して,事前処理がモデル性能に与える影響が限定された。
論文 参考訳(メタデータ) (2022-07-01T15:23:23Z) - Cross-Domain Generalization and Knowledge Transfer in Transformers
Trained on Legal Data [0.0]
異なる型システムで注釈付けされたデータセット間で知識を伝達する事前学習言語モデルの解析を行う。
文がケース決定で果たす修辞的役割の予測は、AI & Lawにおいて重要かつしばしば研究される課題である。
論文 参考訳(メタデータ) (2021-12-15T04:23:14Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - A Brief Review of Domain Adaptation [1.2043574473965317]
本稿では、ラベルがソースドメインでのみ利用可能となる、教師なしドメイン適応に焦点を当てる。
ドメイン適応問題に対処することを目的とした、浅層および深層ドメイン適応アプローチが成功している。
論文 参考訳(メタデータ) (2020-10-07T07:05:32Z) - A Review of Single-Source Deep Unsupervised Visual Domain Adaptation [81.07994783143533]
大規模ラベル付きトレーニングデータセットにより、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクを拡張できるようになった。
多くのアプリケーションにおいて、大量のラベル付きデータを取得するのは非常に高価で時間を要する。
限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている人も多い。
論文 参考訳(メタデータ) (2020-09-01T00:06:50Z) - The Paradigm Discovery Problem [121.79963594279893]
我々は、パラダイム発見問題を定式化し、システム判定のためのメトリクスを開発する。
5つの多言語に対する経験的結果について報告する。
私たちのコードとデータは公開されています。
論文 参考訳(メタデータ) (2020-05-04T16:38:54Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。