Fugu-MT 論文翻訳(概要): Few-Shot Domain Adaptation for Charge Prediction on Unprofessional Descriptions

論文の概要: Few-Shot Domain Adaptation for Charge Prediction on Unprofessional Descriptions

arxiv url: http://arxiv.org/abs/2309.17313v1
Date: Fri, 29 Sep 2023 15:14:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-02 13:15:03.760643
Title: Few-Shot Domain Adaptation for Charge Prediction on Unprofessional Descriptions
Title（参考訳）: 非プロプライエタリ記述に対する電荷予測のためのマイトショット領域適応
Authors: Jie Zhao, Ziyu Guan, Wei Zhao, Yue Jiang, Xiaofei He
Abstract要約: 本稿では,DLCCP (Disentangled Legal Content for Charge Prediction) という新しい領域適応法を提案する。既存のFSDA作品と比較して、DLCCPは、ドメイン不変の法的なコンテンツ学習を改善するために、コンテンツとスタイルの表現をアンハングリングする。我々は、非PLLSデータセットNCCPを初めて公開し、レイパーフレンドリーな電荷予測モデルを開発した。
参考スコア（独自算出の注目度）: 23.840580662545882
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent works considering professional legal-linguistic style (PLLS) texts have shown promising results on the charge prediction task. However, unprofessional users also show an increasing demand on such a prediction service. There is a clear domain discrepancy between PLLS texts and non-PLLS texts expressed by those laypersons, which degrades the current SOTA models' performance on non-PLLS texts. A key challenge is the scarcity of non-PLLS data for most charge classes. This paper proposes a novel few-shot domain adaptation (FSDA) method named Disentangled Legal Content for Charge Prediction (DLCCP). Compared with existing FSDA works, which solely perform instance-level alignment without considering the negative impact of text style information existing in latent features, DLCCP (1) disentangles the content and style representations for better domain-invariant legal content learning with carefully designed optimization goals for content and style spaces and, (2) employs the constitutive elements knowledge of charges to extract and align element-level and instance-level content representations simultaneously. We contribute the first publicly available non-PLLS dataset named NCCP for developing layperson-friendly charge prediction models. Experiments on NCCP show the superiority of our methods over competitive baselines.
Abstract（参考訳）: 近年,PLLS (Professional Law-Luistic style) テキストを考慮した研究が,電荷予測タスクにおいて有望な結果を示している。しかし、プロでないユーザーもこうした予測サービスに対する需要が高まっている。 PLLSテキストと非PLLSテキストの間には明確なドメイン差があり、非PLLSテキスト上での現在のSOTAモデルの性能を劣化させる。主要な課題は、ほとんどのチャージクラスにおける非PLLSデータの不足である。本稿では, 電荷予測のための不連続法定コンテンツ (dlccp) という, 新規なfsda法を提案する。 Compared with existing FSDA works, which solely perform instance-level alignment without considering the negative impact of text style information existing in latent features, DLCCP (1) disentangles the content and style representations for better domain-invariant legal content learning with carefully designed optimization goals for content and style spaces and, (2) employs the constitutive elements knowledge of charges to extract and align element-level and instance-level content representations simultaneously. 我々は、非PLLSデータセットNCCPを初めて公開し、レイパーフレンドリーな電荷予測モデルを開発した。 NCCP実験は,本手法が競争基準よりも優れていることを示す。

関連論文リスト

Resource-Efficient Adaptation of Large Language Models for Text Embeddings via Prompt Engineering and Contrastive Fine-tuning [6.549601823162279]
大規模言語モデル(LLM)は自然言語処理(NLP)の基盤となっている。プリトレーニングされたデコーダのみのLLMの適応戦略について検討する。
論文参考訳（メタデータ） (2025-07-30T14:49:30Z)
Can Performant LLMs Be Ethical? Quantifying the Impact of Web Crawling Opt-Outs [42.58914814153536]
我々は、Webクローリングオプトアウトに準拠したデータセットでトレーニングされたモデルと、そうでないデータセットのパフォーマンス差を定量化する。 1.5Bモデルを用いた実験の結果,2025年1月現在,Webデータオプトアウトの遵守は一般知識獲得を損なうものではないことがわかった。しかし、医学研究などの専門分野では、大手出版社を除くと性能が低下する。
論文参考訳（メタデータ） (2025-04-08T17:08:06Z)
Tuning-Free Personalized Alignment via Trial-Error-Explain In-Context Learning [74.56097953187994]
本稿では,テキスト生成タスクのための言語モデルをパーソナライズするチューニング不要な手法であるTrial-Error-Explain In-Context Learning(TICL)を提案する。 TICLは、試行錯誤説明プロセスを通じて、文脈内学習プロンプトを反復的に拡張し、モデル生成陰性サンプルと説明を追加する。 TICLは従来の最先端技術に対して最大91.5%を達成し、パーソナライズされたアライメントタスクのための競争的なチューニング不要のベースラインを上回っている。
論文参考訳（メタデータ） (2025-02-13T05:20:21Z)
DEUCE: Dual-diversity Enhancement and Uncertainty-awareness for Cold-start Active Learning [54.35107462768146]
コールドスタートアクティブラーニング(CSAL)は、手動アノテーションのためのラベルなしデータセットから貴重なインスタンスを選択する。既存のCSAL手法は、弱いクラスと強い代表例を見落とし、バイアス学習をもたらす。本稿ではCSALのための新しい二変量拡張および不確実性認識フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-01T04:00:03Z)
Horizon-Length Prediction: Advancing Fill-in-the-Middle Capabilities for Code Generation with Lookahead Planning [17.01133761213624]
本研究では,各ステップに残るミドルトークンの数をモデルに予測する学習目標として,Horizon-Length Prediction (HLP)を提案する。 HLPはファイルレベルとリポジトリレベルの異なるベンチマークでFIMのパフォーマンスを最大24%向上させ、非現実的なポストプロセッシング手法を使わずに改善する。
論文参考訳（メタデータ） (2024-10-04T02:53:52Z)
A Small Claims Court for the NLP: Judging Legal Text Classification Strategies With Small Datasets [0.0]
本稿では,小ラベル付きデータセットと大量の未ラベルデータの使用を最適化するための最善の戦略について検討する。我々は,ブラジルの検察官事務所に要求の記録を用いて,対象の1つに記述を割り当てる。その結果, BERTとデータ拡張, 半教師付き学習戦略を併用したUnsupervised Data Augmentation (UDA) が得られた。
論文参考訳（メタデータ） (2024-09-09T18:10:05Z)
CELA: Cost-Efficient Language Model Alignment for CTR Prediction [71.85120354973073]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。 CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文参考訳（メタデータ） (2024-05-17T07:43:25Z)
Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文参考訳（メタデータ） (2023-10-13T16:47:20Z)
Weakly Supervised Vision-and-Language Pre-training with Relative Representations [76.63610760577214]
弱教師付き視覚・言語事前学習は、事前学習のデータコストを効果的に削減することを示した。現在の手法では、イメージのローカル記述(オブジェクトタグ)のみをクロスモーダルアンカーとして使用し、事前トレーニングのための弱い整列されたイメージテキストペアを構築する。
論文参考訳（メタデータ） (2023-05-24T18:10:24Z)
Like a Good Nearest Neighbor: Practical Content Moderation and Text Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。 LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文参考訳（メタデータ） (2023-02-17T15:43:29Z)
Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文参考訳（メタデータ） (2022-12-14T13:41:49Z)
Beyond prompting: Making Pre-trained Language Models Better Zero-shot Learners by Clustering Representations [24.3378487252621]
事前学習した言語モデルの埋め込み空間にテキストをクラスタリングすることで、ゼロショットテキスト分類を改善することができることを示す。提案手法は, 即発的なゼロショット学習よりも平均20%絶対的な改善を実現している。
論文参考訳（メタデータ） (2022-10-29T16:01:51Z)
Variational Autoencoder with Disentanglement Priors for Low-Resource Task-Specific Natural Language Generation [48.09206838892326]
本研究では,条件付き自然言語生成のための乱れ前処理付き変分自動エンコーダ VAE-DPRIOR を提案する。我々のモデルは、潜在コンテンツ空間の先行と潜在ラベル空間の先行を導入することで、非交叉表現学習を行う。
論文参考訳（メタデータ） (2022-02-27T13:34:24Z)
DSGPT: Domain-Specific Generative Pre-Training of Transformers for Text Generation in E-commerce Title and Review Summarization [14.414693156937782]
テキスト生成のための新しいドメイン固有生成事前学習法(DS-GPT)を提案する。電子商取引モバイルディスプレイにおける製品タイトルと要約問題に応用する。
論文参考訳（メタデータ） (2021-12-15T19:02:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。