論文の概要: DALDALL: Data Augmentation for Lexical and Semantic Diverse in Legal Domain by leveraging LLM-Persona
- arxiv url: http://arxiv.org/abs/2603.22765v1
- Date: Tue, 24 Mar 2026 03:49:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.288289
- Title: DALDALL: Data Augmentation for Lexical and Semantic Diverse in Legal Domain by leveraging LLM-Persona
- Title(参考訳): DALDALL:LLM-Personaを利用した法律領域における語彙と意味の多様性のためのデータ拡張
- Authors: Janghyeok Choi, Jaewon Lee, Sungzoon Cho,
- Abstract要約: 我々は、法情報検索(IR)に適したペルソナベースのデータ拡張フレームワークであるDALDALLを紹介する。
本手法では, 弁護士, 検察官, 裁判官など, ドメイン固有の専門的なペルソナを用いて, バニラのアプローチよりも語彙的, 意味的な多様性を著しく向上させる合成クエリを生成する。
- 参考スコア(独自算出の注目度): 17.49224712079782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data scarcity remains a persistent challenge in low-resource domains. While existing data augmentation methods leverage the generative capabilities of large language models (LLMs) to produce large volumes of synthetic data, these approaches often prioritize quantity over quality and lack domain-specific strategies. In this work, we introduce DALDALL, a persona-based data augmentation framework tailored for legal information retrieval (IR). Our method employs domain-specific professional personas--such as attorneys, prosecutors, and judges--to generate synthetic queries that exhibit substantially greater lexical and semantic diversity than vanilla prompting approaches. Experiments on the CLERC and COLIEE benchmarks demonstrate that persona-based augmentation achieves improvement in lexical diversity as measured by Self-BLEU scores, while preserving semantic fidelity to the original queries. Furthermore, dense retrievers fine-tuned on persona-augmented data consistently achieve competitive or superior recall performance compared to those trained on original data or generic augmentations. These findings establish persona-based prompting as an effective strategy for generating high-quality training data in specialized, low-resource domains.
- Abstract(参考訳): データ不足は、低リソース領域における永続的な課題である。
既存のデータ拡張手法では、大規模言語モデル(LLM)の生成能力を利用して大量の合成データを生成するが、これらの手法は品質よりも量を優先し、ドメイン固有の戦略を欠くことが多い。
本研究では,法律情報検索(IR)に適したペルソナベースのデータ拡張フレームワークであるDALDALLを紹介する。
本手法では, 弁護士, 検察官, 裁判官など, ドメイン固有の専門的なペルソナを用いて, バニラのアプローチよりも語彙的, 意味的な多様性を著しく向上させる合成クエリを生成する。
CLERCとCOLIEEベンチマークの実験により、ペルソナに基づく拡張は、オリジナルのクエリに対する意味的忠実性を維持しながら、自己BLEUスコアによって測定された語彙の多様性の向上を実現することが示された。
さらに、ペルソナ強化データに微調整された高密度レトリバーは、元のデータやジェネリック拡張で訓練されたものと比較して、競争力や優れたリコール性能を一貫して達成している。
これらの知見は,特定低リソース領域における高品質なトレーニングデータを生成するための効果的な戦略としてペルソナベースのプロンプトを確立した。
関連論文リスト
- Agentic Adversarial QA for Improving Domain-Specific LLMs [53.00642389531106]
大規模言語モデル(LLM)は、しばしば専門分野に効果的に対応するのに苦労する。
本稿では,意味論的課題の集合をコンパクトに生成する逆問題生成フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-20T10:53:09Z) - Principled Synthetic Data Enables the First Scaling Laws for LLMs in Recommendation [27.59197535041953]
大規模言語モデル(LLM)は推薦システムにとって有望なフロンティアである。
本稿では,高品質な合成データを生成するための新しい階層化フレームワークを提案する。
われわれは、当社の高品質なレコメンデーション特化データに基づいて、継続的に事前訓練されたLSMの堅牢なパワーロースケーリングを、初めて実証的に実証した。
論文 参考訳(メタデータ) (2026-02-07T01:15:15Z) - Data Mixing Agent: Learning to Re-weight Domains for Continual Pre-training [30.915768238214653]
Data Mixing Agentは、ドメインの再重み付けを学ぶエンドツーエンドフレームワークである。
未確認のソースフィールド、ターゲットモデル、そして再トレーニングなしでドメイン空間をうまく一般化する。
論文 参考訳(メタデータ) (2025-07-21T14:01:54Z) - Topic Over Source: The Key to Effective Data Mixing for Language Models Pre-training [10.769503491579666]
マルチステージプロセスで生成された詳細なトピックラベルを利用するトピックベースのデータミキシング戦略を提案する。
我々は、トピックによって混合されたデータに基づいて事前訓練された言語モデルは、ソースによって混合されたデータで訓練された言語よりも一貫して優れていることを示した。
理論的解析により,トピックベースのデータは,ソースベースのアプローチに比べて検証損失が著しく低いことがわかった。
論文 参考訳(メタデータ) (2025-02-24T03:25:56Z) - Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data [54.3895971080712]
多様なデータセットを使用した細調整された大規模言語モデル(LLM)は、さまざまな領域にわたる全体的なパフォーマンス向上に不可欠である。
本稿では,LLMに2つのアイデンティティを与える新しい手法を提案する。多様性報酬に基づいてデータを認知的に探索し,選択する出力モデルと,選択したデータに調整する入力モデルである。
論文 参考訳(メタデータ) (2025-02-05T17:21:01Z) - A Comprehensive Survey on Data Augmentation [57.8664583059197]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する一連のテクニックである。
本調査では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
統一的帰納的アプローチにより、5つのデータモダリティにまたがるデータ拡張手法を分類する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。