論文の概要: Predicting potentially unfair clauses in Chilean terms of services with natural language processing
- arxiv url: http://arxiv.org/abs/2502.00865v1
- Date: Sun, 02 Feb 2025 18:01:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:06:32.890482
- Title: Predicting potentially unfair clauses in Chilean terms of services with natural language processing
- Title(参考訳): チリの自然言語処理サービスにおける潜在的不公平な条項の予測
- Authors: Christoffer Loeffler, Andrea Martínez Freile, Tomás Rey Pizarro,
- Abstract要約: 本研究は, 消費者契約における情報非対称性の増大に対する懸念に対処するものである。
我々はこのギャップに対処する新しい方法論と実質的なデータセットを導入する。
4つのカテゴリと合計20のクラスを持つ新しいアノテーションスキームを提案し、チリで使用される50のオンラインサービス用語に適用する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study addresses the growing concern of information asymmetry in consumer contracts, exacerbated by the proliferation of online services with complex Terms of Service that are rarely even read. Even though research on automatic analysis methods is conducted, the problem is aggravated by the general focus on English-language Machine Learning approaches and on major jurisdictions, such as the European Union. We introduce a new methodology and a substantial dataset addressing this gap. We propose a novel annotation scheme with four categories and a total of 20 classes, and apply it on 50 online Terms of Service used in Chile. Our evaluation of transformer-based models highlights how factors like language- and/or domain-specific pre-training, few-shot sample size, and model architecture affect the detection and classification of potentially abusive clauses. Results show a large variability in performance for the different tasks and models, with the highest macro-F1 scores for the detection task ranging from 79% to 89% and micro-F1 scores up to 96%, while macro-F1 scores for the classification task range from 60% to 70% and micro-F1 scores from 64% to 80%. Notably, this is the first Spanish-language multi-label classification dataset for legal clauses, applying Chilean law and offering a comprehensive evaluation of Spanish-language models in the legal domain. Our work lays the ground for future research in method development for rarely considered legal analysis and potentially leads to practical applications to support consumers in Chile and Latin America as a whole.
- Abstract(参考訳): 本研究は, 消費者契約における情報非対称性の増大に対する懸念に対処するものである。
自動分析手法の研究は行われているが、英語の機械学習アプローチや欧州連合(EU)などの主要な司法機関に焦点が当てられている。
我々はこのギャップに対処する新しい方法論と実質的なデータセットを導入する。
4つのカテゴリと合計20のクラスを持つ新しいアノテーションスキームを提案し、チリで使用される50のオンラインサービス用語に適用する。
トランスフォーマーモデルの評価では,言語やドメイン固有の事前学習,少数ショットサンプルサイズ,モデルアーキテクチャなどの要因が,潜在的乱用節の検出と分類にどのように影響するかを強調した。
その結果, 異なるタスクやモデルにおいて, 最大マクロF1スコアは79%から89%, マイクロF1スコアは96%, マクロF1スコアは60%から70%, マイクロF1スコアは64%から80%であった。
これは、チリの法律を適用し、法的領域におけるスペイン語モデルの包括的な評価を提供する、最初のスペイン語の多言語分類データセットである。
我々の研究は、法的な分析をめったに考慮しない手法開発研究の基盤を築き、チリやラテンアメリカ全体の消費者を支援するための実践的応用に繋がる可能性がある。
関連論文リスト
- Evaluation of End-to-End Continuous Spanish Lipreading in Different Data Conditions [0.0]
本稿では,スペイン語の自動連続唇読解法における顕著な進歩について述べる。
異なる性質の2つのコーパスで実験を行い、最先端の結果を得た。
厳密な誤り解析を行い、自動システムの学習に影響を与える様々な要因について検討した。
論文 参考訳(メタデータ) (2025-02-01T15:48:20Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Bilingual Evaluation of Language Models on General Knowledge in University Entrance Exams with Minimal Contamination [35.88131356701857]
このデータセットは、スペイン語と英語の大学入学レベルの試験に関する1003の質問からなる。
現在のオープンソースモデルとプロプライエタリモデルの選択は、一様ゼロショット実験環境で評価される。
論文 参考訳(メタデータ) (2024-09-19T13:13:07Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Resolving Legalese: A Multilingual Exploration of Negation Scope
Resolution in Legal Documents [3.8467652838774873]
法的テキストの複雑さと注釈付きドメイン内否定コーパスの欠如は、最先端(SotA)モデルに課題をもたらす。
本実験は, 法的なデータを持たない事前学習モデルにおいて, 否定範囲解決の課題において過小評価されていることを示す。
我々は、ドイツ語、フランス語、イタリア語で注釈付き裁判所決定のセットを新たにリリースし、ゼロショットとマルチランガルの両方の設定における否定範囲の解決を改善するためにそれを使用します。
論文 参考訳(メタデータ) (2023-09-15T18:38:06Z) - A User-Centered Evaluation of Spanish Text Simplification [6.046875672600245]
生産システムにおけるスペイン語のテキスト単純化(TS)の評価について述べる。
我々は、スペイン固有の可読性スコアをニューラルネットワークと比較し、後者がTSに関するユーザの好みを予測するのに一貫して優れていることを示す。
我々は,スペインの自然言語処理の最先端を推し進めることを目指して,我々の評価のコーパスを広いコミュニティに公開する。
論文 参考訳(メタデータ) (2023-08-15T03:49:59Z) - Automated Refugee Case Analysis: An NLP Pipeline for Supporting Legal
Practitioners [0.0]
本稿では,訴訟から対象情報を検索,処理,抽出するためのエンドツーエンドパイプラインを提案する。
カナダにおける難民法を事例として,未研究の法域を調査した。
論文 参考訳(メタデータ) (2023-05-24T19:37:23Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。