Fugu-MT 論文翻訳(概要): TypyBench: Evaluating LLM Type Inference for Untyped Python Repositories

論文の概要: TypyBench: Evaluating LLM Type Inference for Untyped Python Repositories

arxiv url: http://arxiv.org/abs/2507.22086v1
Date: Mon, 28 Jul 2025 14:54:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-31 16:14:17.757634
Title: TypyBench: Evaluating LLM Type Inference for Untyped Python Repositories
Title（参考訳）: TypyBench: PythonリポジトリのLLM型推論の評価
Authors: Honghua Dong, Jiacheng Yang, Xun Deng, Yuhe Jiang, Gennady Pekhimenko, Fan Long, Xujie Si,
Abstract要約: 大規模言語モデル(LLM)は、コード理解において有望であるが、型推論能力はまだ未熟である。我々は Python リポジトリ全体にわたって LLM の型推論を評価するために設計されたベンチマークである TypyBench を紹介した。高品質なPythonレポジトリ50のキュレートデータセット上での各種LLMの評価から,LLMは十分なTypeSimスコアを達成できるが,複雑なネスト型と競合し,重要な型整合性エラーを示すことが明らかになった。
参考スコア（独自算出の注目度）: 9.127866457704162
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Type inference for dynamic languages like Python is a persistent challenge in software engineering. While large language models (LLMs) have shown promise in code understanding, their type inference capabilities remain underexplored. We introduce TypyBench, a benchmark designed to evaluate LLMs' type inference across entire Python repositories. TypyBench features two novel metrics: TypeSim, which captures nuanced semantic relationships between predicted and ground truth types, and TypeCheck, which assesses type consistency across codebases. Our evaluation of various LLMs on a curated dataset of 50 high-quality Python repositories reveals that, although LLMs achieve decent TypeSim scores, they struggle with complex nested types and exhibit significant type consistency errors. These findings suggest that future research should shift focus from improving type similarity to addressing repository-level consistency. TypyBench provides a foundation for this new direction, offering insights into model performance across different type complexities and usage contexts. Our code and data are available at https://github.com/typybench/typybench.
Abstract（参考訳）: Pythonのような動的言語の型推論は、ソフトウェア工学において永続的な課題である。大規模言語モデル(LLM)はコード理解において有望であることを示しているが、型推論能力はいまだ探索されていない。我々は Python リポジトリ全体にわたって LLM の型推論を評価するために設計されたベンチマークである TypyBench を紹介した。 TypyBenchには,予測真理型と基底真理型の間のニュアンスなセマンティックな関係をキャプチャするTypeSimと,コードベース間の型一貫性を評価するTypeCheckという,2つの新しいメトリクスがある。高品質なPythonレポジトリ50のキュレートデータセット上での各種LLMの評価から,LLMは十分なTypeSimスコアを達成できるが,複雑なネスト型と競合し,重要な型整合性エラーを示すことが明らかになった。これらの結果は、将来の研究は、型類似性の改善からリポジトリレベルの一貫性への対処へと焦点を移すべきだことを示唆している。 TypyBenchはこの新しい方向性の基礎を提供し、異なる型複雑さと使用状況にわたるモデルパフォーマンスに関する洞察を提供する。私たちのコードとデータはhttps://github.com/typybench/typybench.comで公開されています。

関連論文リスト

Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文参考訳（メタデータ） (2025-04-12T15:03:00Z)
Toward a Corpus Study of the Dynamic Gradual Type [0.0]
本稿では,mypy型チェッカーを使用する221のGitHubプロジェクトを対象とする,Pythonの動的型に関する社内調査について報告する。この研究は、動的型のための8つのパターンを明らかにし、このパターンは、mypy型システムの今後の改良や、正確な型アノテーションを促進するためのツールサポートに影響を及ぼす。
論文参考訳（メタデータ） (2025-03-11T22:18:51Z)
Beyond Memorization: Evaluating the True Type Inference Capabilities of LLMs for Java Code Snippets [3.152174935904172]
最近の研究は、コードスニペットの型推論にLarge Language Modelsを活用し、有望な結果を示している。しかし、ベンチマークスイート(StatType-SO)が2017年以来GitHubで公開されているため、これらの結果はデータ漏洩の影響を受けやすい。 Java コードスニペット上で LLM の型推論能力を総合的に評価するために,3段階評価を行った。
論文参考訳（メタデータ） (2025-03-06T04:13:40Z)
AdaTyper: Adaptive Semantic Column Type Detection [4.062265896931587]
私たちはAdaTyperを提案し、最も重要なデプロイメント課題の1つに対処します。 AdaTyperは弱いスーパービジョンを使用して、ハイブリッド型予測器を新しいセマンティックタイプに適応し、推論時にデータ分散をシフトする。クラウドソーシングによる実世界のデータベーステーブル上でのAdaTyperの適応性能の評価を行った。
論文参考訳（メタデータ） (2023-11-23T04:42:27Z)
Generative Type Inference for Python [62.01560866916557]
本稿では静的解析から静的ドメイン知識を取り入れた数ショットの生成型推論手法であるTypeGenを紹介する。 TypeGenは、静的解析の型推論ステップを、型依存グラフ(TDG)に基づいたプロンプトに変換することで、COTプロンプトを生成する。実験の結果、TypeGenは引数型予測では10.0%、Top-1 Exact Matchでは22.5%で最高のベースラインであるType4Pyを上回っている。
論文参考訳（メタデータ） (2023-07-18T11:40:31Z)
TypeT5: Seq2seq Type Inference using Static Analysis [51.153089609654174]
本稿では,型予測をコード入力タスクとして扱う新しい型推論手法を提案する。本手法では静的解析を用いて,型シグネチャがモデルによって予測されるコード要素毎に動的コンテキストを構築する。また,モデルの入力コンテキストに事前の型予測を組み込んだ反復復号方式を提案する。
論文参考訳（メタデータ） (2023-03-16T23:48:00Z)
UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文参考訳（メタデータ） (2022-05-23T11:01:59Z)
PyHHMM: A Python Library for Heterogeneous Hidden Markov Models [63.01207205641885]
PyHHMM は Heterogeneous-Hidden Markov Models (HHMM) のオブジェクト指向Python実装である。 PyHHMMは、異種観測モデル、データ推論の欠如、異なるモデルの順序選択基準、半教師付きトレーニングなど、同様のフレームワークではサポートされない機能を強調している。 PyHHMMは、numpy、scipy、scikit-learn、およびシーボーンPythonパッケージに依存しており、Apache-2.0ライセンスの下で配布されている。
論文参考訳（メタデータ） (2022-01-12T07:32:36Z)
ManyTypes4Py: A Benchmark Python Dataset for Machine Learning-based Type Inference [9.384801062680786]
ManyTypes4Pyは、機械学習(ML)ベースの型推論のための大きなPythonデータセットである。データセットには合計5,382のPythonプロジェクトと869K以上の型アノテーションが含まれている。
論文参考訳（メタデータ） (2021-04-10T08:10:06Z)
Type4Py: Deep Similarity Learning-Based Type Inference for Python [9.956021565144662]
類似度学習に基づくpythonの型推論モデルであるtype4pyを提案する。高次元空間における同種の型と異種の型を区別することを学ぶ階層的ニューラルネットワークモデルを設計する。 Top-1の予測を考えると、Type4PyはTypilusとTypeWriterよりも19.33%、13.49%高い精度である。
論文参考訳（メタデータ） (2021-01-12T13:32:53Z)
The Paradigm Discovery Problem [121.79963594279893]
我々は、パラダイム発見問題を定式化し、システム判定のためのメトリクスを開発する。 5つの多言語に対する経験的結果について報告する。私たちのコードとデータは公開されています。
論文参考訳（メタデータ） (2020-05-04T16:38:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。