論文の概要: Data-Centric Machine Learning in the Legal Domain
- arxiv url: http://arxiv.org/abs/2201.06653v1
- Date: Mon, 17 Jan 2022 23:05:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 12:58:23.569040
- Title: Data-Centric Machine Learning in the Legal Domain
- Title(参考訳): 法律領域におけるデータ中心機械学習
- Authors: Hannes Westermann, Jaromir Savelka, Vern R. Walker, Kevin D. Ashley,
Karim Benyekhlef
- Abstract要約: 本稿では,データセットの変化がモデルの性能に与える影響について考察する。
法律ドメインから公開されている3つのデータセットを用いて,そのサイズ,列車/テストの分割,および人間のラベル付け精度がパフォーマンスに与える影響について検討する。
観察された効果は、特にクラスごとのパフォーマンスを考慮した場合、驚くほど顕著である。
- 参考スコア(独自算出の注目度): 0.2624902795082451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning research typically starts with a fixed data set created
early in the process. The focus of the experiments is finding a model and
training procedure that result in the best possible performance in terms of
some selected evaluation metric. This paper explores how changes in a data set
influence the measured performance of a model. Using three publicly available
data sets from the legal domain, we investigate how changes to their size, the
train/test splits, and the human labelling accuracy impact the performance of a
trained deep learning classifier. We assess the overall performance (weighted
average) as well as the per-class performance. The observed effects are
surprisingly pronounced, especially when the per-class performance is
considered. We investigate how "semantic homogeneity" of a class, i.e., the
proximity of sentences in a semantic embedding space, influences the difficulty
of its classification. The presented results have far reaching implications for
efforts related to data collection and curation in the field of AI & Law. The
results also indicate that enhancements to a data set could be considered,
alongside the advancement of the ML models, as an additional path for
increasing classification performance on various tasks in AI & Law. Finally, we
discuss the need for an established methodology to assess the potential effects
of data set properties.
- Abstract(参考訳): 機械学習の研究は通常、プロセスの初期に作成された固定データセットから始まる。
実験の焦点は、選択された評価基準の観点から最高のパフォーマンスをもたらすモデルとトレーニング手順を見つけることである。
本稿では,データセットの変化がモデルの性能に与える影響について考察する。
法領域から公開されている3つのデータセットを用いて,そのサイズ,列車/テストの分割,および人間のラベル付け精度が,訓練されたディープラーニング分類器の性能に与える影響について検討する。
全体的なパフォーマンス(重み付け平均)とクラスごとのパフォーマンスを評価します。
観察された効果は、特にクラスごとのパフォーマンスを考慮した場合、驚くほど顕著である。
本研究では,クラス,すなわち意味埋め込み空間における文の近接が,その分類の難しさにどのように影響するかを検討する。
提案した結果は,AIと法学の分野におけるデータ収集とキュレーションに関する取り組みに大きく影響している。
また、機械学習モデルの進歩とともに、データセットの強化が、AI & Lawにおける様々なタスクにおける分類性能を高めるための追加の経路として考慮できることを示した。
最後に,データセット特性の潜在的影響を評価するための確立された手法の必要性について述べる。
関連論文リスト
- Word Matters: What Influences Domain Adaptation in Summarization? [43.7010491942323]
本稿では,ドメイン適応性能に影響を及ぼすきめ細かな要因について検討する。
本稿では,生成的要約の学習難しさとして,データセット学習の難しさの定量化を提案する。
実験により,データセット学習の難易度を考慮すると,要約タスクにおけるドメイン間オーバーラップと性能向上が近似線形関係を示すことがわかった。
論文 参考訳(メタデータ) (2024-06-21T02:15:49Z) - Scaling Laws for the Value of Individual Data Points in Machine Learning [55.596413470429475]
個々のデータポイントの値のスケーリング行動を調べることによって、新しい視点を導入する。
スケーリング法則を支持するための学習理論を提供し、それが様々なモデルクラスにまたがっていることを実証的に観察する。
私たちの研究は、個々のデータポイントの値のスケーリング特性を理解し、活用するための第一歩です。
論文 参考訳(メタデータ) (2024-05-30T20:10:24Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - A classification performance evaluation measure considering data
separability [6.751026374812737]
本稿では,データ符号化率に基づく新たな分離可能性尺度を提案する。
実データセットから構築したマルチタスクシナリオにおいて,提案手法と認識精度の正の相関性を示す。
論文 参考訳(メタデータ) (2022-11-10T09:18:26Z) - Improving Data Quality with Training Dynamics of Gradient Boosting
Decision Trees [1.5605040219256345]
そこで本研究では,GBDT(Gradient Boosting Decision Trees)のトレーニングダイナミクスを指標として,各トレーニング例の振る舞いを評価する手法を提案する。
提案手法を応用した業界事例では, 秩序なデータセットにおけるノイズラベルの検出, 合成および実際の公開データセットにおけるモデルのメトリクスの改善, および, 提案手法に基づくモデル展開の事例について述べる。
論文 参考訳(メタデータ) (2022-10-20T15:02:49Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z) - Revisiting Data Complexity Metrics Based on Morphology for Overlap and
Imbalance: Snapshot, New Overlap Number of Balls Metrics and Singular
Problems Prospect [9.666866159867444]
本研究は,データ形態に基づく複雑性メトリクスの再検討に焦点をあてる。
クラスによるボールのカバレッジに基づいており、オーバーラップ・ナンバー・オブ・ボールにちなんで名付けられている。
論文 参考訳(メタデータ) (2020-07-15T18:21:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。