論文の概要: Few-Shot Domain Adaptation for Charge Prediction on Unprofessional
Descriptions
- arxiv url: http://arxiv.org/abs/2309.17313v1
- Date: Fri, 29 Sep 2023 15:14:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 13:15:03.760643
- Title: Few-Shot Domain Adaptation for Charge Prediction on Unprofessional
Descriptions
- Title(参考訳): 非プロプライエタリ記述に対する電荷予測のためのマイトショット領域適応
- Authors: Jie Zhao, Ziyu Guan, Wei Zhao, Yue Jiang, Xiaofei He
- Abstract要約: 本稿では,DLCCP (Disentangled Legal Content for Charge Prediction) という新しい領域適応法を提案する。
既存のFSDA作品と比較して、DLCCPは、ドメイン不変の法的なコンテンツ学習を改善するために、コンテンツとスタイルの表現をアンハングリングする。
我々は、非PLLSデータセットNCCPを初めて公開し、レイパーフレンドリーな電荷予測モデルを開発した。
- 参考スコア(独自算出の注目度): 23.840580662545882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works considering professional legal-linguistic style (PLLS) texts
have shown promising results on the charge prediction task. However,
unprofessional users also show an increasing demand on such a prediction
service. There is a clear domain discrepancy between PLLS texts and non-PLLS
texts expressed by those laypersons, which degrades the current SOTA models'
performance on non-PLLS texts. A key challenge is the scarcity of non-PLLS data
for most charge classes. This paper proposes a novel few-shot domain adaptation
(FSDA) method named Disentangled Legal Content for Charge Prediction (DLCCP).
Compared with existing FSDA works, which solely perform instance-level
alignment without considering the negative impact of text style information
existing in latent features, DLCCP (1) disentangles the content and style
representations for better domain-invariant legal content learning with
carefully designed optimization goals for content and style spaces and, (2)
employs the constitutive elements knowledge of charges to extract and align
element-level and instance-level content representations simultaneously. We
contribute the first publicly available non-PLLS dataset named NCCP for
developing layperson-friendly charge prediction models. Experiments on NCCP
show the superiority of our methods over competitive baselines.
- Abstract(参考訳): 近年,PLLS (Professional Law-Luistic style) テキストを考慮した研究が,電荷予測タスクにおいて有望な結果を示している。
しかし、プロでないユーザーもこうした予測サービスに対する需要が高まっている。
PLLSテキストと非PLLSテキストの間には明確なドメイン差があり、非PLLSテキスト上での現在のSOTAモデルの性能を劣化させる。
主要な課題は、ほとんどのチャージクラスにおける非PLLSデータの不足である。
本稿では, 電荷予測のための不連続法定コンテンツ (dlccp) という, 新規なfsda法を提案する。
Compared with existing FSDA works, which solely perform instance-level alignment without considering the negative impact of text style information existing in latent features, DLCCP (1) disentangles the content and style representations for better domain-invariant legal content learning with carefully designed optimization goals for content and style spaces and, (2) employs the constitutive elements knowledge of charges to extract and align element-level and instance-level content representations simultaneously.
我々は、非PLLSデータセットNCCPを初めて公開し、レイパーフレンドリーな電荷予測モデルを開発した。
NCCP実験は,本手法が競争基準よりも優れていることを示す。
関連論文リスト
- Horizon-Length Prediction: Advancing Fill-in-the-Middle Capabilities for Code Generation with Lookahead Planning [17.01133761213624]
本研究では,各ステップに残るミドルトークンの数をモデルに予測する学習目標として,Horizon-Length Prediction (HLP)を提案する。
HLPはファイルレベルとリポジトリレベルの異なるベンチマークでFIMのパフォーマンスを最大24%向上させ、非現実的なポストプロセッシング手法を使わずに改善する。
論文 参考訳(メタデータ) (2024-10-04T02:53:52Z) - A Small Claims Court for the NLP: Judging Legal Text Classification Strategies With Small Datasets [0.0]
本稿では,小ラベル付きデータセットと大量の未ラベルデータの使用を最適化するための最善の戦略について検討する。
我々は,ブラジルの検察官事務所に要求の記録を用いて,対象の1つに記述を割り当てる。
その結果, BERTとデータ拡張, 半教師付き学習戦略を併用したUnsupervised Data Augmentation (UDA) が得られた。
論文 参考訳(メタデータ) (2024-09-09T18:10:05Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [71.85120354973073]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - Weakly Supervised Vision-and-Language Pre-training with Relative
Representations [76.63610760577214]
弱教師付き視覚・言語事前学習は、事前学習のデータコストを効果的に削減することを示した。
現在の手法では、イメージのローカル記述(オブジェクトタグ)のみをクロスモーダルアンカーとして使用し、事前トレーニングのための弱い整列されたイメージテキストペアを構築する。
論文 参考訳(メタデータ) (2023-05-24T18:10:24Z) - Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Beyond prompting: Making Pre-trained Language Models Better Zero-shot
Learners by Clustering Representations [24.3378487252621]
事前学習した言語モデルの埋め込み空間にテキストをクラスタリングすることで、ゼロショットテキスト分類を改善することができることを示す。
提案手法は, 即発的なゼロショット学習よりも平均20%絶対的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-29T16:01:51Z) - Variational Autoencoder with Disentanglement Priors for Low-Resource
Task-Specific Natural Language Generation [48.09206838892326]
本研究では,条件付き自然言語生成のための乱れ前処理付き変分自動エンコーダ VAE-DPRIOR を提案する。
我々のモデルは、潜在コンテンツ空間の先行と潜在ラベル空間の先行を導入することで、非交叉表現学習を行う。
論文 参考訳(メタデータ) (2022-02-27T13:34:24Z) - DSGPT: Domain-Specific Generative Pre-Training of Transformers for Text
Generation in E-commerce Title and Review Summarization [14.414693156937782]
テキスト生成のための新しいドメイン固有生成事前学習法(DS-GPT)を提案する。
電子商取引モバイルディスプレイにおける製品タイトルと要約問題に応用する。
論文 参考訳(メタデータ) (2021-12-15T19:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。