論文の概要: I Know Therefore I Score: Label-Free Crafting of Scoring Functions using
Constraints Based on Domain Expertise
- arxiv url: http://arxiv.org/abs/2203.10085v1
- Date: Fri, 18 Mar 2022 17:51:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 14:06:20.221972
- Title: I Know Therefore I Score: Label-Free Crafting of Scoring Functions using
Constraints Based on Domain Expertise
- Title(参考訳): それゆえ私はスコアリングする:ドメインの専門知識に基づく制約を用いたスコアリング関数のラベルフリー作成
- Authors: Ragja Palakkadavath, Sarath Sivaprasad, Shirish Karande, Niranjan
Pedanekar
- Abstract要約: 多次元数値データからスコアリング関数を学習するためのラベルなし実践的手法を提案する。
このアプローチでは、ドメインエキスパートの洞察とビジネスルールを、容易に観察可能で特定可能な制約という形で取り入れています。
このような制約を、スコアリング関数を学習しながら同時に最適化された損失関数に変換する。
- 参考スコア(独自算出の注目度): 6.26476800426345
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Several real-life applications require crafting concise, quantitative scoring
functions (also called rating systems) from measured observations. For example,
an effectiveness score needs to be created for advertising campaigns using a
number of engagement metrics. Experts often need to create such scoring
functions in the absence of labelled data, where the scores need to reflect
business insights and rules as understood by the domain experts. Without a way
to capture these inputs systematically, this becomes a time-consuming process
involving trial and error. In this paper, we introduce a label-free practical
approach to learn a scoring function from multi-dimensional numerical data. The
approach incorporates insights and business rules from domain experts in the
form of easily observable and specifiable constraints, which are used as weak
supervision by a machine learning model. We convert such constraints into loss
functions that are optimized simultaneously while learning the scoring
function. We examine the efficacy of the approach using a synthetic dataset as
well as four real-life datasets, and also compare how it performs vis-a-vis
supervised learning models.
- Abstract(参考訳): いくつかの実生活応用では、測定された観測結果から精度の高い定量的評価関数(レーティングシステムとも呼ばれる)を必要とする。
例えば、多くのエンゲージメント指標を使用して広告キャンペーンの有効性スコアを作成する必要がある。
専門家は、しばしばラベル付きデータがない状態でそのようなスコアリング機能を作成する必要があり、そこでは、スコアはドメインの専門家が理解したビジネス上の洞察とルールを反映する必要がある。
これらの入力を体系的にキャプチャする方法がなければ、試行錯誤を伴う時間のかかるプロセスになる。
本稿では,多次元数値データからスコアリング関数を学習するためのラベルなし実践手法を提案する。
このアプローチでは、容易に観察可能で仕様化可能な制約という形で、ドメインエキスパートからの洞察とビジネスルールを取り入れている。
これらの制約をスコアリング関数を学習しながら同時に最適化した損失関数に変換する。
合成データセットと4つの実生活データセットを用いたアプローチの有効性を検討するとともに,vis-a-vis教師付き学習モデルの実行方法を比較する。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Label-Efficient Interactive Time-Series Anomaly Detection [17.799924009674694]
ラベル効率の良い対話型時系列異常検出システム(LEIAD)を提案する。
この目標を達成するために、システムは弱い監督と活発な学習を協調的に統合する。
本稿では,3つの時系列異常検出データセットについて実験を行い,提案手法が既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-30T10:16:15Z) - Canary in a Coalmine: Better Membership Inference with Ensembled
Adversarial Queries [53.222218035435006]
私たちは、差別的で多様なクエリを最適化するために、逆ツールを使用します。
我々の改善は既存の方法よりもはるかに正確な会員推定を実現している。
論文 参考訳(メタデータ) (2022-10-19T17:46:50Z) - Firenze: Model Evaluation Using Weak Signals [5.723905680436377]
本稿では,機械学習モデルの性能比較のための新しいフレームワークFirenzeを紹介する。
興味領域と呼ばれるサンプルの特定のサブセットに対して計算・結合されたマーカーは、実世界のパフォーマンスを頑健に見積もることができることを示す。
論文 参考訳(メタデータ) (2022-07-02T13:20:38Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z) - Interactive Weak Supervision: Learning Useful Heuristics for Data
Labeling [19.24454872492008]
弱監督は、基礎的な真理ラベルなしでラベル付きデータセットを作成するための有望な代替手段を提供する。
本稿では,対話型弱監督のための最初のフレームワークを開発し,その手法が反復を提案し,ユーザフィードバックから学習する。
私たちの実験は、非常に競争力のあるテストセット性能を達成するモデルのトレーニングに少数のフィードバックが必要であることを示しています。
論文 参考訳(メタデータ) (2020-12-11T00:10:38Z) - Task Programming: Learning Data Efficient Behavior Representations [44.244695150594815]
本稿では,行動分析のためのアノテーションサンプルの効率的な軌道埋め込み法であるTREBAについて述べる。
私たちのメソッドのタスクは、"タスクプログラミング"と呼ばれるプロセスを通じて、ドメインの専門家によって効率的に設計できます。
本研究は,マウスとショウジョウバエの2つの領域にまたがる3つのデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-11-27T18:58:32Z) - Data Programming by Demonstration: A Framework for Interactively
Learning Labeling Functions [2.338938629983582]
本稿では,ユーザによるインタラクティブなデモンストレーションによるラベル付けルールを生成するために,DPBD(Data Programming by Demo)という新しいフレームワークを提案する。
DPBDは、ユーザからのラベリング関数記述の負担を軽減し、より高いレベルのセマンティクスに集中できるようにすることを目的としている。
文書分類のためのラベル付けルールを,文書例におけるユーザのスパンレベルアノテーションを用いて合成する対話型システムであるReducerを用いて,我々のフレームワークを運用する。
論文 参考訳(メタデータ) (2020-09-03T04:25:08Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。