論文の概要: Adaptive Two-Phase Finetuning LLMs for Japanese Legal Text Retrieval
- arxiv url: http://arxiv.org/abs/2412.13205v1
- Date: Tue, 03 Dec 2024 10:52:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-22 08:34:08.514176
- Title: Adaptive Two-Phase Finetuning LLMs for Japanese Legal Text Retrieval
- Title(参考訳): 日本語法文検索のための適応型2相ファインタニングLDM
- Authors: Quang Hoang Trung, Nguyen Van Hoang Phuc, Le Trung Hoang, Quang Huu Hieu, Vo Nguyen Le Duy,
- Abstract要約: 本稿では,日本語の法的文脈に特化して設計された新しいデータセットを提案する。
第一段階では、このモデルはグローバルな文脈を広く理解し、その一般化を強化する。
第2段階では、モデルは法的なシナリオに特有の複雑なクエリに対処するように微調整される。
我々のパイプラインは英語の文脈で有効であることが証明され、MS MARCOデータセットのベースラインに匹敵する。
- 参考スコア(独自算出の注目度): 6.058427379240698
- License:
- Abstract: Text Retrieval (TR) involves finding and retrieving text-based content relevant to a user's query from a large repository, with applications in real-world scenarios such as legal document retrieval. While most existing studies focus on English, limited work addresses Japanese contexts. In this paper, we introduce a new dataset specifically designed for Japanese legal contexts and propose a novel two-phase pipeline tailored to this domain. In the first phase, the model learns a broad understanding of global contexts, enhancing its generalization and adaptability to diverse queries. In the second phase, the model is fine-tuned to address complex queries specific to legal scenarios. Extensive experiments are conducted to demonstrate the superior performance of our method, which outperforms existing baselines. Furthermore, our pipeline proves effective in English contexts, surpassing comparable baselines on the MS MARCO dataset. We have made our code publicly available on GitHub, and the model checkpoints are accessible via HuggingFace.
- Abstract(参考訳): Text Retrieval (TR)は、ユーザのクエリに関連するテキストベースのコンテンツを、大規模なリポジトリから検索し、検索する。
現存するほとんどの研究は英語に焦点をあてているが、限定的な作業は日本の文脈に対処する。
本稿では,日本語の法的文脈に特化して設計された新しいデータセットを紹介し,この領域に合わせた新しい2相パイプラインを提案する。
第1フェーズでは、このモデルはグローバルコンテキストの幅広い理解を学び、その一般化と多様なクエリへの適応性を高める。
第2段階では、モデルは法的なシナリオに特有の複雑なクエリに対処するように微調整される。
提案手法の優れた性能を示すため, 大規模実験を行い, 既存のベースラインよりも優れた性能を示した。
さらに、我々のパイプラインは英語の文脈で有効であることが証明され、MS MARCOデータセットのベースラインに匹敵する。
私たちはコードをGitHubで公開し、モデルチェックポイントはHuggingFace経由でアクセスできます。
関連論文リスト
- Optimizing Multi-Stage Language Models for Effective Text Retrieval [0.0]
本稿では,日本語の法的データセットに最適化された2相テキスト検索パイプラインを提案する。
提案手法は,高度な言語モデルを用いて最先端の性能を実現する。
堅牢性と適応性をさらに向上するため,複数の検索戦略を統合するアンサンブルモデルを組み込んだ。
論文 参考訳(メタデータ) (2024-12-26T16:05:19Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。
BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文 参考訳(メタデータ) (2023-05-10T16:40:52Z) - Attentive Deep Neural Networks for Legal Document Retrieval [2.4350217735794337]
法令文書検索における注意型ニューラルネットワークを用いたテキスト表現法について検討した。
長い文や記事を表すために,2つの階層型アーキテクチャを開発し,それをAttentive CNN と Paraformer と命名する。
実験結果から,知覚的ニューラル法は,データセットや言語間での検索性能において,非神経的手法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-12-13T01:37:27Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。