論文の概要: Optimizing Multi-Stage Language Models for Effective Text Retrieval
- arxiv url: http://arxiv.org/abs/2412.19265v1
- Date: Thu, 26 Dec 2024 16:05:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:29:13.735333
- Title: Optimizing Multi-Stage Language Models for Effective Text Retrieval
- Title(参考訳): 効率的なテキスト検索のための多段階言語モデルの最適化
- Authors: Quang Hoang Trung, Le Trung Hoang, Nguyen Van Hoang Phuc,
- Abstract要約: 本稿では,日本語の法的データセットに最適化された2相テキスト検索パイプラインを提案する。
提案手法は,高度な言語モデルを用いて最先端の性能を実現する。
堅牢性と適応性をさらに向上するため,複数の検索戦略を統合するアンサンブルモデルを組み込んだ。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Efficient text retrieval is critical for applications such as legal document analysis, particularly in specialized contexts like Japanese legal systems. Existing retrieval methods often underperform in such domain-specific scenarios, necessitating tailored approaches. In this paper, we introduce a novel two-phase text retrieval pipeline optimized for Japanese legal datasets. Our method leverages advanced language models to achieve state-of-the-art performance, significantly improving retrieval efficiency and accuracy. To further enhance robustness and adaptability, we incorporate an ensemble model that integrates multiple retrieval strategies, resulting in superior outcomes across diverse tasks. Extensive experiments validate the effectiveness of our approach, demonstrating strong performance on both Japanese legal datasets and widely recognized benchmarks like MS-MARCO. Our work establishes new standards for text retrieval in domain-specific and general contexts, providing a comprehensive solution for addressing complex queries in legal and multilingual environments.
- Abstract(参考訳): 効率的なテキスト検索は、法律文書分析などの応用、特に日本の法律システムのような特殊な文脈において重要である。
既存の検索手法はドメイン固有のシナリオでは性能が低く、カスタマイズされたアプローチを必要とすることが多い。
本稿では,日本語の法的データセットに最適化された2段階のテキスト検索パイプラインを提案する。
提案手法は,高度な言語モデルを用いて最先端の性能を実現し,検索効率と精度を大幅に向上させる。
頑健性と適応性をさらに向上するため,複数の検索戦略を統合したアンサンブルモデルを導入し,多様なタスクにまたがる優れた結果を得た。
提案手法の有効性を検証し,MS-MARCOのような日本語法定データセットと広く認識されているベンチマークの両方で高い性能を示した。
本研究は、ドメイン固有および汎用コンテキストにおけるテキスト検索の新しい標準を確立し、法的および多言語環境における複雑なクエリに対処するための包括的ソリューションを提供する。
関連論文リスト
- CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Improving embedding with contrastive fine-tuning on small datasets with expert-augmented scores [12.86467344792873]
提案手法では,専門的なスコアから派生したソフトラベルをファインチューン埋め込みモデルに適用する。
オンラインショッピングサイトと8つのエキスパートモデルからQ&Aデータセットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-08-19T01:59:25Z) - Generative Retrieval with Preference Optimization for E-commerce Search [16.78829577915103]
我々は、好みを最適化した生成検索という、Eコマース検索のための革新的なフレームワークを開発する。
生の項目のタイトルを表すためにマルチスパン識別子を使用し、クエリからタイトルを生成するタスクを、クエリからマルチスパン識別子を生成するタスクに変換する。
実験の結果,本フレームワークは実世界のデータセット上での競合性能を実現し,オンラインA/Bテストはコンバージョンゲインの改善における優位性と有効性を示した。
論文 参考訳(メタデータ) (2024-07-29T09:31:19Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Improving Zero-Shot Text Matching for Financial Auditing with Large
Language Models [2.842163527983814]
我々は、ドメイン固有に最適化されたトランスフォーマーベースのテキストマッチングソリューションと組み合わせて、最先端の大規模言語モデル(LLM)を活用する新しいレコメンデーションシステムZeroShotALIを提案する。
2段階のアプローチでは、まず、独自のBERTモデルを用いて、法的な要件ごとに最適な文書セクションを抽出し、次に、LLMを用いてこれらの選択をフィルタリングすることで、既存のアプローチよりも大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-11T12:55:09Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Attentive Deep Neural Networks for Legal Document Retrieval [2.4350217735794337]
法令文書検索における注意型ニューラルネットワークを用いたテキスト表現法について検討した。
長い文や記事を表すために,2つの階層型アーキテクチャを開発し,それをAttentive CNN と Paraformer と命名する。
実験結果から,知覚的ニューラル法は,データセットや言語間での検索性能において,非神経的手法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-12-13T01:37:27Z) - Diverse Pretrained Context Encodings Improve Document Translation [31.03899564183553]
複数の事前訓練された文書コンテキスト信号を組み込んだ文レベルのシーケンス・ツー・シーケンス・トランスフォーマに適応する新しいアーキテクチャを提案する。
最高のマルチコンテキストモデルは、既存のコンテクスト対応トランスフォーマーよりも一貫して優れています。
論文 参考訳(メタデータ) (2021-06-07T15:28:01Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。