論文の概要: TorchQL: A Programming Framework for Integrity Constraints in Machine
Learning
- arxiv url: http://arxiv.org/abs/2308.06686v2
- Date: Tue, 13 Feb 2024 06:07:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 19:29:24.064874
- Title: TorchQL: A Programming Framework for Integrity Constraints in Machine
Learning
- Title(参考訳): TorchQL: マシンラーニングにおける統合制約のプログラミングフレームワーク
- Authors: Aaditya Naik, Adam Stein, Yinjun Wu, Eric Wong, Mayur Naik
- Abstract要約: 本稿では、機械学習アプリケーションの正確性を評価し改善するプログラミングフレームワークであるTorchQLを紹介する。
TorchQLを使用することで、マシンラーニングモデルやデータセットに対する整合性制約を指定およびチェックするためのクエリの記述が可能になる。
我々は、自律運転においてビデオフレーム間で検出されたオブジェクトの時間的不整合を検知するなど、多様なユースケースでTorchQLを評価する。
- 参考スコア(独自算出の注目度): 22.48732201553164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finding errors in machine learning applications requires a thorough
exploration of their behavior over data. Existing approaches used by
practitioners are often ad-hoc and lack the abstractions needed to scale this
process. We present TorchQL, a programming framework to evaluate and improve
the correctness of machine learning applications. TorchQL allows users to write
queries to specify and check integrity constraints over machine learning models
and datasets. It seamlessly integrates relational algebra with functional
programming to allow for highly expressive queries using only eight intuitive
operators. We evaluate TorchQL on diverse use-cases including finding critical
temporal inconsistencies in objects detected across video frames in autonomous
driving, finding data imputation errors in time-series medical records, finding
data labeling errors in real-world images, and evaluating biases and
constraining outputs of language models. Our experiments show that TorchQL
enables up to 13x faster query executions than baselines like Pandas and
MongoDB, and up to 40% shorter queries than native Python. We also conduct a
user study and find that TorchQL is natural enough for developers familiar with
Python to specify complex integrity constraints.
- Abstract(参考訳): 機械学習アプリケーションでエラーを見つけるには、データの振る舞いを徹底的に調査する必要がある。
実践者が使用する既存のアプローチは、しばしばアドホックであり、このプロセスのスケールアップに必要な抽象化が欠如している。
本稿では、機械学習アプリケーションの正確性を評価し改善するプログラミングフレームワークであるTorchQLを紹介する。
TorchQLを使用することで、マシンラーニングモデルやデータセットに対する整合性制約を指定およびチェックするためのクエリの記述が可能になる。
リレーショナル代数と関数型プログラミングをシームレスに統合し、8つの直感的演算子のみを使用して高度に表現的なクエリを可能にする。
本研究では,ビデオフレームを横断する物体の時間的不整合を自律運転で発見すること,時系列医療記録におけるデータインプテーションエラーの検出,実世界画像におけるデータラベルエラーの検出,言語モデルのバイアスと制約結果の評価など,多様なユースケースにおけるtorchqlを評価した。
我々の実験によると、TorchQLはPandasやMongoDBのようなベースラインよりも最大13倍高速なクエリ実行を可能にし、ネイティブPythonよりも最大40%短いクエリを実行できます。
また、ユーザ調査を実施して、torchqlがpythonに慣れた開発者が複雑な整合性制約を指定できるほど自然であることを確認しました。
関連論文リスト
- ProbGate at EHRSQL 2024: Enhancing SQL Query Generation Accuracy through Probabilistic Threshold Filtering and Error Handling [0.0]
本稿では, エントロピーに基づく不確定な結果の抽出とフィルタリングを行う手法を提案する。
我々は,提案手法が解答不能な質問をフィルタリングできることを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-25T14:55:07Z) - NL2KQL: From Natural Language to Kusto Query [1.7931930942711818]
NL2KQLは、大規模言語モデル(LLM)を使用して自然言語クエリ(NLQ)をKusto Query Language(KQL)クエリに変換する革新的なフレームワークである。
NL2KQLのパフォーマンスを検証するために、オンライン(クエリ実行に基づく)とオフライン(クエリ解析に基づく)メトリクスの配列を使用します。
論文 参考訳(メタデータ) (2024-04-03T01:09:41Z) - Meta Operator for Complex Query Answering on Knowledge Graphs [58.340159346749964]
我々は、異なる複雑なクエリタイプではなく、異なる論理演算子型が一般化性を向上させる鍵であると主張する。
本稿では,メタ演算子を限られたデータで学習し,様々な複雑なクエリの演算子のインスタンスに適応するメタ学習アルゴリズムを提案する。
実験結果から,メタオペレータの学習は,従来のCQAモデルやメタCQAモデルよりも効果的であることが示唆された。
論文 参考訳(メタデータ) (2024-03-15T08:54:25Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Transactional Python for Durable Machine Learning: Vision, Challenges,
and Feasibility [5.669983975369642]
Pythonアプリケーションは、トレーニングされたモデルや抽出された機能などの重要なデータを失う可能性がある。
本稿では,ユーザプログラムやPythonカーネルにコード修正を加えることなくDARTを提供するトランザクショナルPythonのビジョンについて述べる。
公開PyTorchおよびScikit-learnアプリケーションによる概念実証実装の評価は、DARTが1.5%~15.6%のオーバーヘッドで提供可能であることを示している。
論文 参考訳(メタデータ) (2023-05-15T16:27:09Z) - SPARQLing Database Queries from Intermediate Question Decompositions [7.475027071883912]
自然言語の質問をデータベースクエリに変換するために、ほとんどのアプローチは、完全に注釈付けされたトレーニングセットに依存している。
データベースの中間問題表現を基盤として,この負担を軽減する。
我々のパイプラインは、自然言語質問を中間表現に変換するセマンティックと、訓練不能なトランスパイラをQLSPARクエリ言語に変換する2つの部分から構成される。
論文 参考訳(メタデータ) (2021-09-13T17:57:12Z) - pyWATTS: Python Workflow Automation Tool for Time Series [0.20315704654772418]
pyWATTSは時系列データ分析のための非シーケンスワークフロー自動化ツールである。
pyWATTSには、新しいメソッドや既存のメソッドのシームレスな統合を可能にする、明確に定義されたインターフェイスを持つモジュールが含まれている。
pyWATTSはScikit-learn、PyTorch、KerasといったPythonの機械学習ライブラリをサポートする。
論文 参考訳(メタデータ) (2021-06-18T14:50:11Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z) - Query Understanding via Intent Description Generation [75.64800976586771]
問合せ理解のためのQ2ID(Query-to-Intent-Description)タスクを提案する。
クエリとその記述を利用してドキュメントの関連性を計算する既存のランキングタスクとは異なり、Q2IDは自然言語のインテント記述を生成するための逆タスクである。
Q2IDタスクにおける複数の最先端生成モデルとの比較により,本モデルの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-25T08:56:40Z) - PyODDS: An End-to-end Outlier Detection System with Automated Machine
Learning [55.32009000204512]
PyODDSは、データベースサポート付きアウトレイラ検出のための、エンドツーエンドのPythonシステムである。
具体的には,探索空間を外乱検出パイプラインで定義し,与えられた探索空間内で探索戦略を作成する。
また、データサイエンスや機械学習のバックグラウンドの有無に関わらず、統一されたインターフェイスと視覚化を提供する。
論文 参考訳(メタデータ) (2020-03-12T03:30:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。