論文の概要: FAIR: Filtering of Automatically Induced Rules
- arxiv url: http://arxiv.org/abs/2402.15472v1
- Date: Fri, 23 Feb 2024 18:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 13:40:03.055562
- Title: FAIR: Filtering of Automatically Induced Rules
- Title(参考訳): FAIR: 自動帰納規則のフィルタリング
- Authors: Divya Jyoti Bajpai, Ayush Maheshwari, Manjesh Kumar Hanawal, Ganesh
Ramakrishnan
- Abstract要約: 本稿では,多数の自動生成ルールからルールをフィルタリングするアルゴリズムを提案する。
本稿では,既存のルールフィルタリング手法と比較して,統計的に有意な結果が得られることを示す。
- 参考スコア(独自算出の注目度): 32.52955030294756
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The availability of large annotated data can be a critical bottleneck in
training machine learning algorithms successfully, especially when applied to
diverse domains. Weak supervision offers a promising alternative by
accelerating the creation of labeled training data using domain-specific rules.
However, it requires users to write a diverse set of high-quality rules to
assign labels to the unlabeled data. Automatic Rule Induction (ARI) approaches
circumvent this problem by automatically creating rules from features on a
small labeled set and filtering a final set of rules from them. In the ARI
approach, the crucial step is to filter out a set of a high-quality useful
subset of rules from the large set of automatically created rules. In this
paper, we propose an algorithm (Filtering of Automatically Induced Rules) to
filter rules from a large number of automatically induced rules using
submodular objective functions that account for the collective precision,
coverage, and conflicts of the rule set. We experiment with three ARI
approaches and five text classification datasets to validate the superior
performance of our algorithm with respect to several semi-supervised label
aggregation approaches. Further, we show that achieves statistically
significant results in comparison to existing rule-filtering approaches.
- Abstract(参考訳): 大規模な注釈付きデータの可用性は、機械学習アルゴリズムのトレーニングにおいて、特に多様なドメインに適用した場合、重要なボトルネックとなる可能性がある。
弱監督は、ドメイン固有のルールを使用してラベル付きトレーニングデータの作成を加速することで、有望な代替手段を提供する。
しかし、ラベルのないデータにラベルを割り当てるために、ユーザは様々な高品質のルールを書く必要がある。
自動ルール誘導(ARI)は、小さなラベル付きセット上の機能からルールを自動生成し、最終的なルールセットをフィルタリングすることで、この問題を回避する。
ARIアプローチでは、重要なステップは、自動化されたルールの大きなセットから、高品質な有用なルールのサブセットをフィルタリングすることです。
本稿では,ルール集合の集合的精度,カバレッジ,コンフリクトを考慮に入れた準モジュラー目的関数を用いて,多数のルールからルールをフィルタリングするアルゴリズム(自動帰納規則のフィルタリング)を提案する。
3つのariアプローチと5つのテキスト分類データセットを用いて、複数の半教師付きラベルアグリゲーション手法に対するアルゴリズムの優れた性能を検証する。
さらに,既存のルールフィルタリング手法と比較して統計的に有意な結果が得られることを示す。
関連論文リスト
- RulePrompt: Weakly Supervised Text Classification with Prompting PLMs and Self-Iterative Logical Rules [30.239044569301534]
弱教師付きテキスト分類(WSTC)は、大量のテキストを分類できるため、注目を集めている。
本稿では,ルールマイニングモジュールとルール強化擬似ラベル生成モジュールからなるWSTCタスクに対して,ルールプロンプトというPLMベースのアプローチを提案する。
提案手法は解釈可能なカテゴリー規則を導出し,難解なカテゴリを曖昧にすることの利点を証明した。
論文 参考訳(メタデータ) (2024-03-05T12:50:36Z) - SoFA: Shielded On-the-fly Alignment via Priority Rule Following [90.32819418613407]
本稿では,各ダイアログにおけるルールを主制御機構として定義する,新たなアライメントパラダイムである優先ルールを提案する。
そこで本研究では,厳密な規則統合と固着性を確保するために,シミュレーションから優先信号に従う半自動蒸留手法であるプライオリティディスティルを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:52:27Z) - Efficient learning of large sets of locally optimal classification rules [0.0]
従来のルール学習アルゴリズムは、単純なルールの集合を見つけることを目的としており、各ルールは可能な限り多くの例をカバーする。
本稿では、この方法で発見されたルールは、それらがカバーする例のそれぞれに対して最適な説明ではないかもしれないと論じる。
本稿では,1つの特殊化ループと1つの一般化ループからなるグリーディ最適化において,各トレーニング例をカバーする最良のルールを見つけることを目的とした,効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-24T11:40:28Z) - Concise and interpretable multi-label rule sets [13.416159628299779]
簡単な「if-then」ルールの簡潔な集合として表現できるマルチラベル分類器を開発した。
提案手法は, 正確なマルチラベル分類に繋がる, 関連パターンの小さな集合を見つけることができる。
論文 参考訳(メタデータ) (2022-10-04T11:23:50Z) - Towards Target Sequential Rules [52.4562332499155]
ターゲット・シーケンシャル・ルール・マイニング(TaSRM)と呼ばれる効率的なアルゴリズムを提案する。
新たなアルゴリズムであるTaSRMとその変種は,既存のベースラインアルゴリズムと比較して実験性能がよいことを示す。
論文 参考訳(メタデータ) (2022-06-09T18:59:54Z) - Interpretable and Fair Boolean Rule Sets via Column Generation [18.08486863429421]
整数プログラムは、規則単純性のために最適に分類精度を交換するように定式化される。
公平性の設定を考慮し、分類パリティの2つの異なる尺度に関する明示的な制約を含むように定式化を拡張した。
他の公正かつ解釈可能な分類器と比較して、我々の手法は、公正性のより厳密な概念に適合する規則セットを精度の低いトレードオフで見つけることができる。
論文 参考訳(メタデータ) (2021-11-16T13:40:28Z) - Active Learning from Crowd in Document Screening [76.9545252341746]
我々は、文書を評価し、それらを効率的にスクリーニングする機械学習分類器のセットの構築に注力する。
そこで本研究では,多ラベル能動学習スクリーニング技術である目的認識サンプリングを提案する。
目的認識サンプリングは,アートアクティブラーニングサンプリングの手法を著しく上回っていることを実証する。
論文 参考訳(メタデータ) (2020-11-11T16:17:28Z) - Rewriting a Deep Generative Model [56.91974064348137]
我々は,深層生成モデルによって符号化された特定の規則の操作という,新たな問題設定を導入する。
本稿では,ディープネットワークの層を線形連想メモリとして操作することで,所望のルールを変更する定式化を提案する。
本稿では,生成モデルのルールを対話的に変更し,望ましい効果を得られるユーザインタフェースを提案する。
論文 参考訳(メタデータ) (2020-07-30T17:58:16Z) - Interaction Matching for Long-Tail Multi-Label Classification [57.262792333593644]
既存のマルチラベル分類モデルにおいて,制約に対処するためのエレガントで効果的なアプローチを提案する。
ソフトなn-gram相互作用マッチングを実行することで、ラベルと自然言語記述をマッチングする。
論文 参考訳(メタデータ) (2020-05-18T15:27:55Z) - Towards Learning Instantiated Logical Rules from Knowledge Graphs [20.251630903853016]
本稿では,知識グラフから一階述語論理規則を抽出するために最適化された確率論的学習ルールGPFLを提案する。
GPFLは、抽出された経路を非循環的な抽象規則であるテンプレートに一般化する新しい2段階ルール生成機構を利用する。
オーバーフィッティングルールの存在、予測性能への影響、およびオーバーフィッティングルールをフィルタリングする単純なバリデーション手法の有効性を明らかにする。
論文 参考訳(メタデータ) (2020-03-13T00:32:46Z) - Low-Budget Label Query through Domain Alignment Enforcement [48.06803561387064]
我々は低予算ラベルクエリと呼ばれる新しい問題に取り組む。
まず、ソースとターゲットドメインの整合性を改善するために、Unsupervised Domain Adaptation (UDA) 法を改善します。
そこで我々は,予測整合分布の均一サンプリングに基づく簡易かつ効果的な選択法を提案する。
論文 参考訳(メタデータ) (2020-01-01T16:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。