論文の概要: Complaint-driven Training Data Debugging for Query 2.0
- arxiv url: http://arxiv.org/abs/2004.05722v1
- Date: Sun, 12 Apr 2020 23:56:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 05:14:10.682467
- Title: Complaint-driven Training Data Debugging for Query 2.0
- Title(参考訳): query 2.0のクレーム駆動トレーニングデータデバッグ
- Authors: Weiyuan Wu, Lampros Flokas, Eugene Wu, Jiannan Wang
- Abstract要約: 苦情駆動型トレーニングデータデバッグシステムであるRainを提案する。
Rainでは、クエリの中間出力または最終出力に関する苦情を指定できる。
本稿では、線形再学習ステップを必要とする影響関数に基づく2つの新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 19.755285494278983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the need for machine learning (ML) increases rapidly across all industry
sectors, there is a significant interest among commercial database providers to
support "Query 2.0", which integrates model inference into SQL queries.
Debugging Query 2.0 is very challenging since an unexpected query result may be
caused by the bugs in training data (e.g., wrong labels, corrupted features).
In response, we propose Rain, a complaint-driven training data debugging
system. Rain allows users to specify complaints over the query's intermediate
or final output, and aims to return a minimum set of training examples so that
if they were removed, the complaints would be resolved. To the best of our
knowledge, we are the first to study this problem. A naive solution requires
retraining an exponential number of ML models. We propose two novel heuristic
approaches based on influence functions which both require linear retraining
steps. We provide an in-depth analytical and empirical analysis of the two
approaches and conduct extensive experiments to evaluate their effectiveness
using four real-world datasets. Results show that Rain achieves the highest
recall@k among all the baselines while still returns results interactively.
- Abstract(参考訳): 機械学習(ML)の必要性がすべての業界で急速に増加する中、商用データベースプロバイダの間では、モデル推論をSQLクエリに統合する"クエリ2.0"のサポートに対する大きな関心がある。
Query 2.0のデバッグは、トレーニングデータ(間違ったラベル、破損した機能など)のバグによって予期せぬクエリ結果が引き起こされるため、非常に難しい。
そこで本研究では,苦情駆動型トレーニングデータデバッグシステムrainを提案する。
rainでは、クエリの中間出力または最終出力に対する苦情を指定でき、最小のトレーニング例セットを返すことで、削除された場合には苦情が解決される。
私たちの知る限りでは、私たちはこの問題を最初に研究している。
単純解法は指数関数的な数のMLモデルを再訓練する必要がある。
線形再学習ステップを必要とする影響関数に基づく2つの新しいヒューリスティックアプローチを提案する。
本研究では,2つのアプローチの詳細な分析および実証分析を行い,実世界の4つのデータセットを用いてその有効性を評価する。
その結果、rainはすべてのベースラインの中で最も高いrecall@kを達成し、インタラクティブに結果を返す。
関連論文リスト
- GLoRe: When, Where, and How to Improve LLM Reasoning via Global and
Local Refinements [8.993629238857057]
最先端の言語モデルは、数学、科学、あるいはコーディングタスクに関する驚くべき推論の洗練能力を示すことができる。
しかし、最高のモデルでさえ、外部からのフィードバックを使わずに、Textitwhenと洗練すべき場所を特定するのに苦労している。
我々は、最適ポリシーの今後の報奨を近似するために、合成データのみに基づいて訓練されたステップワイズORMを提案する。
論文 参考訳(メタデータ) (2024-02-13T20:16:29Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - Reframing Offline Reinforcement Learning as a Regression Problem [0.0]
本研究は,決定木を用いて解ける回帰問題として,オフライン強化学習の改革を提案する。
勾配木ではエージェントのトレーニングと推論が非常に高速であることが観察された。
この改良された問題に固有の単純化にもかかわらず、我々のエージェントは、少なくとも確立された手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-01-21T23:50:46Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with
Language Models [116.19321613273311]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Can Large Language Models Infer Causation from Correlation? [80.38419293391397]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Enabling SQL-based Training Data Debugging for Federated Learning [24.716084718496365]
我々は,最先端のArtsqlベースのトレーニングデータデバッグフレームワークであるRainを,当社のフェデレーション学習環境に拡張するFedRainを提案する。
これらの制限を克服するため、我々はセキュリティプロトコルを再設計し、フェデレートラーニングに適した新しいsqlベースのトレーニングデータデバッグフレームワークであるFrogを提案する。
我々の理論分析によると、FrogはFedRainよりも安全で、正確で、効率的である。
論文 参考訳(メタデータ) (2021-08-26T16:20:56Z) - Variational Bayesian Unlearning [54.26984662139516]
本研究では, ベイズモデルの学習を, 消去する訓練データの小さな部分集合から, ほぼ非学習する問題について検討する。
消去されたデータから完全に学習されていないデータと、過去の信念を完全に忘れていないデータとをトレードオフする証拠を最小化するのと等価であることを示す。
VI を用いたモデルトレーニングでは、完全なデータから近似した(正確には)後続の信念しか得られず、未学習をさらに困難にしている。
論文 参考訳(メタデータ) (2020-10-24T11:53:00Z) - An Efficient Method of Training Small Models for Regression Problems
with Knowledge Distillation [1.433758865948252]
回帰問題に対する知識蒸留の新しい定式化を提案する。
まず,教師モデル予測を用いて,教師モデルを用いた学習サンプルの退学率を下げる新たな損失関数,教師の退学率の減少を提案する。
マルチタスクネットワークを考えることで、学生モデルの特徴抽出の訓練がより効果的になる。
論文 参考訳(メタデータ) (2020-02-28T08:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。