論文の概要: Reinforced Approximate Exploratory Data Analysis
- arxiv url: http://arxiv.org/abs/2212.06225v1
- Date: Mon, 12 Dec 2022 20:20:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 14:10:53.681192
- Title: Reinforced Approximate Exploratory Data Analysis
- Title(参考訳): 近似探索データ解析の強化
- Authors: Shaddy Garg, Subrata Mitra, Tong Yu, Yash Gadhia, Arjun Kashettiwar
- Abstract要約: まず,対話型データ探索環境におけるサンプリングの影響について検討し,近似誤差を導入する。
本稿では, サンプル選択を最適化し, 分析および洞察フローの持続性を維持するための, 深層強化学習(DRL)に基づくフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.974685452145769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploratory data analytics (EDA) is a sequential decision making process
where analysts choose subsequent queries that might lead to some interesting
insights based on the previous queries and corresponding results. Data
processing systems often execute the queries on samples to produce results with
low latency. Different downsampling strategy preserves different statistics of
the data and have different magnitude of latency reductions. The optimum choice
of sampling strategy often depends on the particular context of the analysis
flow and the hidden intent of the analyst. In this paper, we are the first to
consider the impact of sampling in interactive data exploration settings as
they introduce approximation errors. We propose a Deep Reinforcement Learning
(DRL) based framework which can optimize the sample selection in order to keep
the analysis and insight generation flow intact. Evaluations with 3 real
datasets show that our technique can preserve the original insight generation
flow while improving the interaction latency, compared to baseline methods.
- Abstract(参考訳): 探索的データ分析(exploratory data analytics、eda)は、アナリストがそれに続くクエリを選択して、過去のクエリとそれに対応する結果に基づいて興味深い洞察を導き出す、逐次的な意思決定プロセスである。
データ処理システムは、低レイテンシで結果を生成するために、しばしばサンプルでクエリを実行する。
異なるダウンサンプリング戦略は、データの異なる統計を保存し、異なる大きさの遅延減少を持つ。
サンプリング戦略の最適選択は分析フローの特定の文脈と分析者の隠れた意図に依存することが多い。
本稿では,対話型データ探索におけるサンプリングの影響を,近似誤差を導入する際に初めて検討する。
本稿では, サンプル選択を最適化し, 分析および洞察フローの持続性を維持するための, 深層強化学習(DRL)に基づくフレームワークを提案する。
3つの実データセットを用いて評価した結果,本手法は,ベースライン法と比較して,相互作用遅延を改善しつつ,元の洞察生成フローを維持可能であることがわかった。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - RECOST: External Knowledge Guided Data-efficient Instruction Tuning [25.985023475991625]
我々は、現在のデータ効率のよい命令チューニング手法は、元の命令チューニングデータセットの品質に大きく依存していると論じる。
我々は、外部知識ベースの再評価と多様性に一貫性のあるサンプリングを単一のパイプラインに統合する、textbfRECOSTと呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:47:36Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Optimal Sample Selection Through Uncertainty Estimation and Its
Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。
提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文 参考訳(メタデータ) (2023-09-05T14:06:33Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Stream-based active learning with linear models [0.7734726150561089]
生産において、製品情報を取得するためにランダム検査を行う代わりに、ラベルなしデータの情報内容を評価することによりラベルを収集する。
本稿では,ストリームベースのシナリオを学習者に順次提供するための新たな戦略を提案する。
未ラベルデータポイントの通知性にしきい値を設定することにより、意思決定プロセスの反復的な側面に取り組む。
論文 参考訳(メタデータ) (2022-07-20T13:15:23Z) - Statistical Inference After Adaptive Sampling for Longitudinal Data [9.468593929311867]
本研究では,Z推定による適応的なサンプルデータに対して,様々な統計的解析を行う新しい手法を開発した。
本研究は, 実験プロセスのための新しい理論ツールを開発し, 個別の関心を持つ可能性のある, 適応的にサンプル化された長手データについて述べる。
論文 参考訳(メタデータ) (2022-02-14T23:48:13Z) - On Sampling Collaborative Filtering Datasets [9.041133460836361]
提案アルゴリズムのランク付け性能に対するデータセットサンプリング戦略の実践的結果について検討する。
我々は、与えられたデータセットのモデル性能を最も保持する可能性のあるサンプリングスキームを提案できるオラクル、Data-Genieを開発した。
論文 参考訳(メタデータ) (2022-01-13T02:39:22Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。