論文の概要: Computer-Assisted Creation of Boolean Search Rules for Text
Classification in the Legal Domain
- arxiv url: http://arxiv.org/abs/2112.05807v1
- Date: Fri, 10 Dec 2021 19:53:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 14:40:21.673697
- Title: Computer-Assisted Creation of Boolean Search Rules for Text
Classification in the Legal Domain
- Title(参考訳): 法的ドメインにおけるテキスト分類のためのブール探索規則の作成
- Authors: Hannes Westermann, Jaromir Savelka, Vern R. Walker, Kevin D. Ashley,
Karim Benyekhlef
- Abstract要約: 我々はCASEと呼ばれる対話型環境を開発し、単語共起を利用して人間アノテータに関連する検索語の選択を誘導する。
このシステムは、分類規則の反復的評価と改善をシームレスに行う。
4つのデータセットからCASEシステムを用いて作成した分類器を評価し,その結果を機械学習手法と比較した。
- 参考スコア(独自算出の注目度): 0.5249805590164901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a method of building strong, explainable
classifiers in the form of Boolean search rules. We developed an interactive
environment called CASE (Computer Assisted Semantic Exploration) which exploits
word co-occurrence to guide human annotators in selection of relevant search
terms. The system seamlessly facilitates iterative evaluation and improvement
of the classification rules. The process enables the human annotators to
leverage the benefits of statistical information while incorporating their
expert intuition into the creation of such rules. We evaluate classifiers
created with our CASE system on 4 datasets, and compare the results to machine
learning methods, including SKOPE rules, Random forest, Support Vector Machine,
and fastText classifiers. The results drive the discussion on trade-offs
between superior compactness, simplicity, and intuitiveness of the Boolean
search rules versus the better performance of state-of-the-art machine learning
models for text classification.
- Abstract(参考訳): 本稿では,boolean search rulesの形で,強固で説明可能な分類器を構築する手法を提案する。
そこで我々はCASE (Computer Assisted Semantic Exploration) と呼ばれる対話型環境を開発し, 単語共起を利用して, 関連する検索語の選択を誘導する。
このシステムは、分類規則の反復的評価と改善をシームレスに行う。
このプロセスにより、人間のアノテータは、専門家の直感をこれらのルールの作成に取り入れながら、統計情報の利点を活用できる。
4つのデータセットでケースシステムで作成した分類器を評価し,skopeルール,ランダムフォレスト,サポートベクターマシン,fasttext分類器などの機械学習手法と比較した。
その結果,テキスト分類のための最先端機械学習モデルの性能に対して,より優れたコンパクト性,単純性,直感性のトレードオフが議論されている。
関連論文リスト
- DISCERN: Decoding Systematic Errors in Natural Language for Text Classifiers [18.279429202248632]
本稿では,テキスト分類器における系統的バイアスを言語説明を用いて解釈するフレームワークであるdisCERNを紹介する。
DISCERNは、2つの大きな言語モデル間の対話ループを用いて、体系的エラーの正確な自然言語記述を反復的に生成する。
本研究では, クラスタを例に挙げるよりも, 言語説明を通して, 系統的バイアスをより効果的に(25%以上相対的に) 効率的に解釈できることを示す。
論文 参考訳(メタデータ) (2024-10-29T17:04:55Z) - Bisimulation Learning [55.859538562698496]
我々は、大きな、潜在的に無限の状態空間を持つ状態遷移系の有限バイシミュレートを計算する。
提案手法は,実際に行われている他の最先端ツールよりも高速な検証結果が得られる。
論文 参考訳(メタデータ) (2024-05-24T17:11:27Z) - RulePrompt: Weakly Supervised Text Classification with Prompting PLMs and Self-Iterative Logical Rules [30.239044569301534]
弱教師付きテキスト分類(WSTC)は、大量のテキストを分類できるため、注目を集めている。
本稿では,ルールマイニングモジュールとルール強化擬似ラベル生成モジュールからなるWSTCタスクに対して,ルールプロンプトというPLMベースのアプローチを提案する。
提案手法は解釈可能なカテゴリー規則を導出し,難解なカテゴリを曖昧にすることの利点を証明した。
論文 参考訳(メタデータ) (2024-03-05T12:50:36Z) - Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [60.5923941324953]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。
我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。
推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文 参考訳(メタデータ) (2024-03-01T10:38:07Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Prompt Algebra for Task Composition [131.97623832435812]
素早いチューニングを伴うビジュアル言語モデルを基本分類器として検討する。
合成分類器の性能向上のための制約付きプロンプトチューニングを提案する。
UTZapposでは、最高のベースモデルに対する分類精度を平均8.45%向上させる。
論文 参考訳(メタデータ) (2023-06-01T03:20:54Z) - A Meta-Learning Algorithm for Interrogative Agendas [3.0969191504482247]
我々は,質問的議題を表現するために,標準的な知識表現形式主義である形式概念分析(FCA)に焦点を当てる。
FCAベースのアルゴリズムは、分類や外れ値検出などの標準的な機械学習タスクにすでに使用されている。
本稿では,データを説明する優れた質問課題を構築するためのメタ学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-04T22:09:36Z) - Perturbations and Subpopulations for Testing Robustness in Token-Based
Argument Unit Recognition [6.502694770864571]
Argument Unit Recognition and Classification は、テキストから引数単位を識別し、それをpro または against として分類することを目的としている。
このタスクのためにシステムを開発する際に必要となる設計上の選択の1つは、分類単位が何かである。
従来の研究では、トークンレベルの微調整言語モデルは、文章を直接訓練するよりも、文章を分類する上でより堅牢な結果をもたらすことが示唆されている。
当初この主張を導いた研究を再現し、トークンベースのシステムが文ベースのシステムと比較して何を学んだかをさらに調査する。
論文 参考訳(メタデータ) (2022-09-29T13:44:28Z) - Classifying Scientific Publications with BERT -- Is Self-Attention a
Feature Selection Method? [0.0]
科学論文分類のための微調整シナリオにおけるBERTの自己保持機構について検討する。
記事のドメインに強く関係する単語に自己注意がどのように焦点をあてるかを観察する。
テキスト分類に通常用いられる特徴選択法と,最も参加者の多い単語のサブセットを比較し,評価する。
論文 参考訳(メタデータ) (2021-01-20T13:22:26Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。