論文の概要: Computer-Assisted Creation of Boolean Search Rules for Text
Classification in the Legal Domain
- arxiv url: http://arxiv.org/abs/2112.05807v1
- Date: Fri, 10 Dec 2021 19:53:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 14:40:21.673697
- Title: Computer-Assisted Creation of Boolean Search Rules for Text
Classification in the Legal Domain
- Title(参考訳): 法的ドメインにおけるテキスト分類のためのブール探索規則の作成
- Authors: Hannes Westermann, Jaromir Savelka, Vern R. Walker, Kevin D. Ashley,
Karim Benyekhlef
- Abstract要約: 我々はCASEと呼ばれる対話型環境を開発し、単語共起を利用して人間アノテータに関連する検索語の選択を誘導する。
このシステムは、分類規則の反復的評価と改善をシームレスに行う。
4つのデータセットからCASEシステムを用いて作成した分類器を評価し,その結果を機械学習手法と比較した。
- 参考スコア(独自算出の注目度): 0.5249805590164901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a method of building strong, explainable
classifiers in the form of Boolean search rules. We developed an interactive
environment called CASE (Computer Assisted Semantic Exploration) which exploits
word co-occurrence to guide human annotators in selection of relevant search
terms. The system seamlessly facilitates iterative evaluation and improvement
of the classification rules. The process enables the human annotators to
leverage the benefits of statistical information while incorporating their
expert intuition into the creation of such rules. We evaluate classifiers
created with our CASE system on 4 datasets, and compare the results to machine
learning methods, including SKOPE rules, Random forest, Support Vector Machine,
and fastText classifiers. The results drive the discussion on trade-offs
between superior compactness, simplicity, and intuitiveness of the Boolean
search rules versus the better performance of state-of-the-art machine learning
models for text classification.
- Abstract(参考訳): 本稿では,boolean search rulesの形で,強固で説明可能な分類器を構築する手法を提案する。
そこで我々はCASE (Computer Assisted Semantic Exploration) と呼ばれる対話型環境を開発し, 単語共起を利用して, 関連する検索語の選択を誘導する。
このシステムは、分類規則の反復的評価と改善をシームレスに行う。
このプロセスにより、人間のアノテータは、専門家の直感をこれらのルールの作成に取り入れながら、統計情報の利点を活用できる。
4つのデータセットでケースシステムで作成した分類器を評価し,skopeルール,ランダムフォレスト,サポートベクターマシン,fasttext分類器などの機械学習手法と比較した。
その結果,テキスト分類のための最先端機械学習モデルの性能に対して,より優れたコンパクト性,単純性,直感性のトレードオフが議論されている。
関連論文リスト
- RulePrompt: Weakly Supervised Text Classification with Prompting PLMs
and Self-Iterative Logical Rules [32.04177004723828]
弱教師付きテキスト分類(WSTC)は、大量のテキストを分類できるため、注目を集めている。
本稿では,ルールマイニングモジュールとルール強化擬似ラベル生成モジュールからなるWSTCタスクに対して,ルールプロンプトというPLMベースのアプローチを提案する。
提案手法は解釈可能なカテゴリー規則を導出し,難解なカテゴリを曖昧にすることの利点を証明した。
論文 参考訳(メタデータ) (2024-03-05T12:50:36Z) - Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [68.09977874599925]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。
我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。
推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文 参考訳(メタデータ) (2024-03-01T10:38:07Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Prompt Algebra for Task Composition [131.97623832435812]
素早いチューニングを伴うビジュアル言語モデルを基本分類器として検討する。
合成分類器の性能向上のための制約付きプロンプトチューニングを提案する。
UTZapposでは、最高のベースモデルに対する分類精度を平均8.45%向上させる。
論文 参考訳(メタデータ) (2023-06-01T03:20:54Z) - A Meta-Learning Algorithm for Interrogative Agendas [3.0969191504482247]
我々は,質問的議題を表現するために,標準的な知識表現形式主義である形式概念分析(FCA)に焦点を当てる。
FCAベースのアルゴリズムは、分類や外れ値検出などの標準的な機械学習タスクにすでに使用されている。
本稿では,データを説明する優れた質問課題を構築するためのメタ学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-04T22:09:36Z) - Perturbations and Subpopulations for Testing Robustness in Token-Based
Argument Unit Recognition [6.502694770864571]
Argument Unit Recognition and Classification は、テキストから引数単位を識別し、それをpro または against として分類することを目的としている。
このタスクのためにシステムを開発する際に必要となる設計上の選択の1つは、分類単位が何かである。
従来の研究では、トークンレベルの微調整言語モデルは、文章を直接訓練するよりも、文章を分類する上でより堅牢な結果をもたらすことが示唆されている。
当初この主張を導いた研究を再現し、トークンベースのシステムが文ベースのシステムと比較して何を学んだかをさらに調査する。
論文 参考訳(メタデータ) (2022-09-29T13:44:28Z) - Computing Rule-Based Explanations of Machine Learning Classifiers using
Knowledge Graphs [62.997667081978825]
我々は、機械学習分類器の動作を説明する用語を提供する基盤となるフレームワークとして知識グラフを使用している。
特に,知識グラフの用語で表される一階述語論理規則の形で,ブラックボックスの説明を抽出し,表現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T16:21:49Z) - Unsupervised Key-phrase Extraction and Clustering for Classification
Scheme in Scientific Publications [0.0]
本稿では,システムマッピング (SM) とシステムレビュー (SR) プロセスの自動化の可能性について検討する。
キーフレーズは教師なしの方法で科学文書から抽出され、対応する分類体系を構築するために使用される。
また、クラスタリングを使って関連するキーフレーズをグループ化する方法についても検討する。
論文 参考訳(メタデータ) (2021-01-25T10:17:33Z) - Classifying Scientific Publications with BERT -- Is Self-Attention a
Feature Selection Method? [0.0]
科学論文分類のための微調整シナリオにおけるBERTの自己保持機構について検討する。
記事のドメインに強く関係する単語に自己注意がどのように焦点をあてるかを観察する。
テキスト分類に通常用いられる特徴選択法と,最も参加者の多い単語のサブセットを比較し,評価する。
論文 参考訳(メタデータ) (2021-01-20T13:22:26Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。