論文の概要: Domain-Adaptive Dense Retrieval for Brazilian Legal Search
- arxiv url: http://arxiv.org/abs/2605.04005v1
- Date: Tue, 05 May 2026 17:25:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:44.061913
- Title: Domain-Adaptive Dense Retrieval for Brazilian Legal Search
- Title(参考訳): ブラジル法定検索のためのドメイン適応ダンセンス検索
- Authors: Jayr Pereira, Roberto Lotufo, Luiz Bonifacio,
- Abstract要約: ブラジルの法的検索は異質であり、事件法、法律、質問に基づく検索をカバーしている。
本稿では,このトレードオフをQwen3-Embedding-4Bに基づく3つのトレーニング設定を用いて検討する。
JUのリーダーボードから得られた5つの法的データセットとQuitiデータセットでこれらのモデルを評価する。
- 参考スコア(独自算出の注目度): 4.656946831394176
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Brazilian legal retrieval is heterogeneous, covering case law, legislation, and question-based search. This makes training dense retrievers a trade-off between stronger domain specialization and broader robustness across retrieval types of search. In this paper, we explore this trade-off using three training setups based on Qwen3-Embedding-4B: a base model with no fine-tuning, a version trained only on legal data, and a mixed setup that combines legal data with SQuAD-pt supervised dataset. We evaluate these models on five legal datasets from the JUÁ leaderboard, along with Quati dataset as an extra Portuguese retrieval benchmark to test out-of-domain generalization. The legal-only model performs best on the most specialized legal tasks. The mixed setup keeps strong performance on legal data while offering a better overall balance, improving average NDCG@10 from 0.414 to 0.447, MRR@10 from 0.586 to 0.595, and MAP@10 from 0.270 to 0.308 across all six datasets. The biggest improvement appears on Quati, where the mixed model clearly outperforms the legal-only one. Overall, the results show that legal-only and mixed training lead to different strengths: the first is better for specialization, while the second is more robust across different types of search, especially question-based ones. Both adapted models are available on Hugging Face
- Abstract(参考訳): ブラジルの法的検索は異質であり、事件法、法律、質問に基づく検索をカバーしている。
これにより、より強力なドメイン専門化と、検索タイプの広いロバスト性の間のトレードオフとなる。
本稿では、Qwen3-Embedding-4Bに基づく3つのトレーニング設定、微調整のないベースモデル、法的なデータのみに基づいてトレーニングされたバージョン、およびSQuAD-pt教師付きデータセットと法的なデータを組み合わせた混合セットアップを用いて、このトレードオフを検討する。
我々はこれらのモデルを,ユウのリーダーボードから得られた5つの法的データセットと,外部領域の一般化をテストするためのポルトガル語検索ベンチマークとして,Quitiデータセットを用いて評価する。
法律のみのモデルは、最も専門的な法的タスクで最善を尽くす。
MRR@10は0.586から0.595まで、MAP@10は0.270から0.308までの6つのデータセットで改善されている。
Quatiの最大の改善点は、混成モデルが法律のみのモデルよりも明らかに優れていることだ。
その結果、法律のみの訓練と混合訓練は、それぞれ異なる強みをもたらすことが明らかとなった。
どちらのモデルもHugging Faceで利用可能
関連論文リスト
- Can Small Models Reason About Legal Documents? A Comparative Study [0.0]
大規模言語モデルは法的なアプリケーションには有望であるが、フロンティアモデルのデプロイは、コスト、レイテンシ、データプライバシに関する懸念を提起する。
3つの法的なベンチマークで9つのモデルをテストすることにより,サブ10Bパラメータモデルが実用的な代替手段として機能するかどうかを評価する。
論文 参考訳(メタデータ) (2026-03-26T22:28:20Z) - Deterministic Fuzzy Triage for Legal Compliance Classification and Evidence Retrieval [0.0]
法律チームはますます、大量の契約上の証拠をトリアージするために機械学習を使用している。
多くのモデルは不透明で非決定論的であり、HIPAAやNERC-CIPのようなフレームワークと整合するのは難しい。
決定論的双対エンコーダと透明なファジィトリアージバンドに基づく簡単な再現可能な代替法について検討する。
論文 参考訳(メタデータ) (2026-03-08T00:31:34Z) - Relative Scaling Laws for LLMs [91.73497548097775]
スケーリング法則は、追加のデータ、パラメータ、計算によって言語モデルがどのように改善されるかを記述する。
相対的なスケーリング法則を導入し、テスト分布間のパフォーマンスギャップをスケールで追跡する。
これらの結果は、スケーリングは全体的なパフォーマンスを改善するが、普遍的等化器ではないことを示している。
論文 参考訳(メタデータ) (2025-10-28T16:55:22Z) - MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes [60.57770396565211]
強い推論能力は、はるかに少ないデータで実現可能であることを示す。
MobileLLM-R50MのAIMEスコアは15.5であり、OLMo-2-1.48Bは0.6、SmolLM-2-1.7Bは0.3である。
論文 参考訳(メタデータ) (2025-09-29T15:43:59Z) - CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。
ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文 参考訳(メタデータ) (2025-04-17T17:58:13Z) - A Llama walks into the 'Bar': Efficient Supervised Fine-Tuning for Legal Reasoning in the Multi-state Bar Exam [38.71998082580061]
法的な推論タスクは、ドメイン固有の知識と推論プロセスの複雑さのために、大きな言語モデル(LLM)に固有の課題を示す。
本稿では,Llama 2 7B と Llama 3 8B の小さい言語モデルが,MBE (Multi-state Bar Examination) の限られたデータセットを用いて,いかに効果的に微調整できるかを検討する。
論文 参考訳(メタデータ) (2025-04-07T11:31:22Z) - eagerlearners at SemEval2024 Task 5: The Legal Argument Reasoning Task in Civil Procedure [0.04096453902709291]
本研究では,3大言語モデルを用いたデータ分類におけるゼロショット法の性能について検討した。
私たちの主要なデータセットは、米国民事訴訟のドメインから来ています。
論文 参考訳(メタデータ) (2024-06-24T09:57:44Z) - Text Embeddings by Weakly-Supervised Contrastive Pre-training [98.31785569325402]
E5は最先端のテキスト埋め込みのファミリーであり、幅広いタスクにうまく転送される。
E5は、テキストの単一ベクトル表現を必要とするタスクに対して、汎用的な埋め込みモデルとして簡単に使用できる。
論文 参考訳(メタデータ) (2022-12-07T09:25:54Z) - When Does Pretraining Help? Assessing Self-Supervised Learning for Law
and the CaseHOLD Dataset [2.0924876102146714]
53,000以上の選択質問からなる新しいデータセットを提示し、引用されたケースの保持状況を特定する。
タスクがプリトレーニングコーパスと十分な類似性を示すと、ドメイン事前トレーニングが保証される可能性がある。
我々の研究結果は、研究者がいつリソース集約的な事前訓練を行うべきかを知らせ、Transformerベースのアーキテクチャも、異なる法的言語を示唆する埋め込みを学習することを示す。
論文 参考訳(メタデータ) (2021-04-18T00:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。