論文の概要: Optimal and Efficient Binary Questioning for Human-in-the-Loop
Annotation
- arxiv url: http://arxiv.org/abs/2307.01578v1
- Date: Tue, 4 Jul 2023 09:11:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 17:37:15.308664
- Title: Optimal and Efficient Binary Questioning for Human-in-the-Loop
Annotation
- Title(参考訳): 人間-the-Loopアノテーションのための最適かつ効率的なバイナリ質問
- Authors: Franco Marchesoni-Acland, Jean-Michel Morel, Josselin Kherroubi,
Gabriele Facciolo
- Abstract要約: 本稿では,アノテートされたデータに予測器を付与するという,無視された相補的問題を考察する。
単純な二項分類設定では、最適一般解から実用的な方法まで幅広いスペクトルを提示する。
- 参考スコア(独自算出の注目度): 11.4375764457726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Even though data annotation is extremely important for interpretability,
research and development of artificial intelligence solutions, most research
efforts such as active learning or few-shot learning focus on the sample
efficiency problem. This paper studies the neglected complementary problem of
getting annotated data given a predictor. For the simple binary classification
setting, we present the spectrum ranging from optimal general solutions to
practical efficient methods. The problem is framed as the full annotation of a
binary classification dataset with the minimal number of yes/no questions when
a predictor is available. For the case of general binary questions the solution
is found in coding theory, where the optimal questioning strategy is given by
the Huffman encoding of the possible labelings. However, this approach is
computationally intractable even for small dataset sizes. We propose an
alternative practical solution based on several heuristics and lookahead
minimization of proxy cost functions. The proposed solution is analysed,
compared with optimal solutions and evaluated on several synthetic and
real-world datasets. On these datasets, the method allows a significant
improvement ($23-86\%$) in annotation efficiency.
- Abstract(参考訳): データアノテーションは、人工知能ソリューションの解釈、研究、開発において極めて重要であるが、アクティブラーニングやマイナショットラーニングのようなほとんどの研究は、サンプル効率問題に焦点を当てている。
本稿では, 予測器が与える注釈データ取得の補足問題について検討する。
単純な二項分類設定では、最適一般解から実用的な方法まで幅広いスペクトルを提示する。
この問題は、予測者が利用可能な場合、最小のyes/no質問数を持つバイナリ分類データセットの完全なアノテーションとしてフレーム化されている。
一般的な二分問題の場合、解は符号理論において見出され、最適な質問戦略は可能なラベルのハフマン符号化によって与えられる。
しかし、このアプローチは小さなデータセットサイズであっても計算が難しい。
本稿では,いくつかのヒューリスティックスとプロキシコスト関数のルックアヘッド最小化に基づく代替実用ソリューションを提案する。
提案手法は最適解と比較して解析され、複数の合成および実世界のデータセットで評価される。
これらのデータセットでは、アノテーションの効率が大幅に向上する(23-86\%$)。
関連論文リスト
- Forecasting Outside the Box: Application-Driven Optimal Pointwise Forecasts for Stochastic Optimization [0.0]
本稿では,未知の状況の最適近似を導出する統合学習と最適化手法を提案する。
文献の在庫問題と実データを用いた自転車共有問題から得られた数値結果から,提案手法が有効であることを示す。
論文 参考訳(メタデータ) (2024-11-05T21:54:50Z) - Provable Optimization for Adversarial Fair Self-supervised Contrastive Learning [49.417414031031264]
本稿では,自己教師型学習環境におけるフェアエンコーダの学習について検討する。
すべてのデータはラベル付けされておらず、そのごく一部だけが機密属性で注釈付けされている。
論文 参考訳(メタデータ) (2024-06-09T08:11:12Z) - The Battleship Approach to the Low Resource Entity Matching Problem [0.0]
本稿では,エンティティマッチング問題に対する新しいアクティブな学習手法を提案する。
我々は、エンティティマッチングのユニークな特性を利用する選択メカニズムに焦点を当てる。
実験により,提案アルゴリズムは,最先端のアクティブ・ラーニング・ソリューションより低リソース・エンティティ・マッチングに優れることを示した。
論文 参考訳(メタデータ) (2023-11-27T10:18:17Z) - Global and Preference-based Optimization with Mixed Variables using Piecewise Affine Surrogates [0.6083861980670925]
本稿では,線形制約付き混合変数問題の解法として,新しいサロゲートに基づく大域的最適化アルゴリズムを提案する。
目的関数はブラックボックスとコスト対評価であり、線形制約は予測不可能な事前知識である。
本稿では,2種類の探索関数を導入し,混合整数線形計画解法を用いて実現可能な領域を効率的に探索する。
論文 参考訳(メタデータ) (2023-02-09T15:04:35Z) - Communication-Efficient Robust Federated Learning with Noisy Labels [144.31995882209932]
フェデレーテッド・ラーニング(FL)は、分散した位置データの上で、将来性のあるプライバシ保護機械学習パラダイムである。
FLにおける雑音ラベルの効果を緩和する学習に基づく再重み付け手法を提案する。
提案手法は,複数の実世界のデータセットにおいて,各種ベースラインと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-11T16:21:17Z) - Low-rank Dictionary Learning for Unsupervised Feature Selection [11.634317251468968]
低ランク表現に辞書学習のアイデアを適用することで、教師なしの新たな特徴選択手法を導入する。
非教師付き特徴選択のための統一目的関数は、$ell_2,1$-norm正規化によってスパースな方法で提案される。
実験の結果,提案手法は最先端のアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-21T13:39:10Z) - Low Budget Active Learning via Wasserstein Distance: An Integer
Programming Approach [81.19737119343438]
アクティブラーニング(Active Learning)とは、ラベル付きデータプールのコアサブセットをラベルに選択することで、ラベル付きデータでモデルをトレーニングするプロセスである。
本稿では,未ラベルプールからワッサーシュタイン距離を最小化するコアセットを選択するための新しい整数最適化問題を提案する。
我々の戦略は、ラベルのないプールで教師なし学習によって得られる高品質な潜伏的特徴を必要とする。
論文 参考訳(メタデータ) (2021-06-05T21:25:03Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Online Model Selection for Reinforcement Learning with Function
Approximation [50.008542459050155]
我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。
また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-11-19T10:00:54Z) - Semi-Supervised Learning with Meta-Gradient [123.26748223837802]
半教師付き学習における簡単なメタ学習アルゴリズムを提案する。
その結果,提案アルゴリズムは最先端の手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2020-07-08T08:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。