論文の概要: Can AI be Easy? Lessons Learned from the EZR.py Toolkit
- arxiv url: http://arxiv.org/abs/2606.03640v1
- Date: Thu, 28 May 2026 21:06:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 10:57:21.746798
- Title: Can AI be Easy? Lessons Learned from the EZR.py Toolkit
- Title(参考訳): AIは簡単にできるのか?EZR.py Toolkitから学んだ教訓
- Authors: Tim Menzies, Srinath Srinivasan,
- Abstract要約: EZRは、Naive Bayes、$k$-meansクラスタリング、分類と回帰ツリー、シミュレートされたアニール、ローカルサーチ、アクティブラーニング、テキストマイニングフィルタを実装するPythonツールキットである。
EZRは、繰り返し読み上げとAIツールによって構築され、それらを単純化して統合した。
- 参考スコア(独自算出の注目度): 4.168157981135697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Much recent press claims that developers no longer need to read code. We disagree, at least within the domain of tabular software-engineering (SE) optimization tasks: rows of $x$ and $y$ values where the $y$ values are expensive to obtain. As evidence we present 400 lines of EZR.py, a Python toolkit (no heavy dependencies) that implements Naive Bayes, $k$-means clustering, classification and regression trees, simulated annealing, local search, active learning, and complementary-Bayes text-mining relevance filtering for tabular SE data. EZR was built by repeatedly reading and refactoring AI tools to simplify and unify them. The result demonstrates that many seemingly different learning algorithms are nearly the same once stripped back to their core: classical algorithms collapse to a few lines each, and a state-of-the-art active learner fits in roughly 80 lines. Tested on the 120+ tabular SE optimization tasks in the MOOT repository, these tiny tools perform as well as or better than state-of-the-art explanation tools (SHAP, LIME), the SMAC3 optimizer, and SVM-based text-mining filters (FASTREAD), while running 500$\times$ faster than SMAC3, using orders of magnitude less labelled data, and building trees from fewer than ten variables even when thousands are available. We conclude that, within the scope of tabular SE optimization, reading and refactoring code is a useful method of generating insight, and small unified toolkits can rival large libraries. EZR is available under an open-source license. Install via \textsf{pip install ezr}; example data at \textsf{github.com/timm/moot}.
- Abstract(参考訳): 最近の報道では、開発者はもはやコードを読む必要がないと主張している。
少なくとも表計算ソフトウェアエンジニアリング(SE)最適化タスクの領域内:$x$と$y$値の行。
証拠として、Naive Bayes、$k$-meansクラスタリング、分類と回帰ツリー、シミュレートされたアニーリング、ローカルサーチ、アクティブラーニング、およびタブ形式のSEデータに対する補完的なBayesテキストマイニング関連フィルタリングを実装したPythonツールキット(重い依存関係を持たない)であるEZR.pyの400行を提示する。
EZRは、AIツールの読み書きとリファクタリングを繰り返し、それらを単純化し、統合することによって構築された。
古典的なアルゴリズムは、それぞれ数行に崩壊し、最先端のアクティブな学習者はおよそ80行に収まる。
MOOTリポジトリの120以上の表形式のSE最適化タスクでテストされたこれらの小さなツールは、最先端の説明ツール(SHAP、LIME)、SMAC3オプティマイザ、SVMベースのテキストマイニングフィルタ(FASTREAD)と同等以上のパフォーマンスを発揮し、500$\times$でSMAC3より高速に動作し、ラベル付きデータの桁数を削減し、数千が利用可能であっても10変数未満のツリーを構築する。
我々は、表形式のSE最適化の範囲内で、コードの読み書きとリファクタリングは洞察を生成する有用な方法であり、小さな統一ツールキットは大きなライブラリに匹敵する可能性があると結論付けている。
EZRはオープンソースライセンスで利用可能である。
install via \textsf{pip install ezr}; example data at \textsf{github.com/timm/moot}
関連論文リスト
- STRABLE: Benchmarking Tabular Machine Learning with Strings [53.03295517218137]
STRABLEは108のテーブルからなるベンチマークコーパスであり、様々なアプリケーションフィールドにまたがる文字列や数値を使った実世界の学習問題である。
445個のパイプラインを評価し,文字列を用いた表型学習の大規模な実証的研究を行った。
野生のほとんどのテーブルは分類的に支配的であるため、単純な文字列埋め込みと組み合わせた先進的な表型学習者は、計算コストを低くして優れた予測を達成できる。
論文 参考訳(メタデータ) (2026-05-12T15:47:50Z) - Don't Get Lost in the Trees: Streamlining LLM Reasoning by Overcoming Tree Search Exploration Pitfalls [83.89771461061903]
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
意味論的に等価なコンテンツを持つ冗長な状態による$textitover-Exploration$と、検証器のスコアリングにおける高いばらつきに起因する$textitunder-Exploration$である。
各種木探索アルゴリズムに適合するフレキシブルなプラグアンドプレイシステムであるFETCHを提案する。
論文 参考訳(メタデータ) (2025-02-16T16:12:01Z) - $\texttt{dattri}$: A Library for Efficient Data Attribution [7.803566162554017]
データ属性法は、個々のトレーニングサンプルが人工知能(AI)モデルの予測に与える影響を定量化することを目的としている。
新たなデータ属性メソッドが開発されているにもかかわらず、さまざまなデータ属性メソッドの開発、ベンチマーク、デプロイを容易にする包括的なライブラリが欠如している。
本稿では、上記のニーズに対処するオープンソースのデータ属性ライブラリである、$textttdattri$を紹介します。
論文 参考訳(メタデータ) (2024-10-06T17:18:09Z) - Linear-time Minimum Bayes Risk Decoding with Reference Aggregation [52.1701152610258]
最小ベイズリスク(MBR、Minimum Bayes Risk)は、機械翻訳の品質向上を図ったテキスト生成技術である。
これは2次複雑性を持つ実用計量のペアワイズ計算を必要とする。
本稿では,集約された参照表現に対して計算したスコアを用いて,ペアワイズメトリックスコアを近似する。
論文 参考訳(メタデータ) (2024-02-06T18:59:30Z) - Large Language Models for Automated Data Science: Introducing CAAFE for
Context-Aware Automated Feature Engineering [52.09178018466104]
データセットのセマンティックな特徴を生成するために、コンテキスト認識自動特徴工学(CAAFE)を導入する。
方法論的には単純だが、CAAFEは14のデータセットのうち11のパフォーマンスを改善している。
我々は,AutoMLシステムの範囲をセマンティックなAutoMLに拡張できるコンテキスト認識ソリューションの重要性を強調した。
論文 参考訳(メタデータ) (2023-05-05T09:58:40Z) - Robust Methods for High-Dimensional Linear Learning [0.0]
統計的に頑健で計算効率の良い線形学習法を高次元バッチ設定で提案する。
バニラスパース、グループスパース、低ランク行列回復など、いくつかのアプリケーションでフレームワークをインスタンス化する。
バニラ $s$-sparsity の場合、重いテールと $eta$-corruption の下で $slog (d)/n$ レートに達することができます。
論文 参考訳(メタデータ) (2022-08-10T17:00:41Z) - Scaling Up Models and Data with $\texttt{t5x}$ and $\texttt{seqio}$ [118.04625413322827]
$texttt5x$と$texttseqio$は、言語モデルの構築とトレーニングのためのオープンソースのソフトウェアライブラリである。
これらのライブラリは、複数のテラバイトのトレーニングデータを持つデータセット上で、数十億のパラメータを持つモデルをトレーニングするために使用されています。
論文 参考訳(メタデータ) (2022-03-31T17:12:13Z) - IMBENS: Ensemble Class-imbalanced Learning in Python [26.007498723608155]
imbensはオープンソースのPythonツールボックスで、クラス不均衡なデータに対してアンサンブル学習アルゴリズムを実装し、デプロイする。
imbensはMITオープンソースライセンスでリリースされており、Python Package Index (PyPI)からインストールすることができる。
論文 参考訳(メタデータ) (2021-11-24T20:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。