論文の概要: Know When to Fuse: Investigating Non-English Hybrid Retrieval in the Legal Domain
- arxiv url: http://arxiv.org/abs/2409.01357v1
- Date: Mon, 2 Sep 2024 16:19:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 06:11:05.437645
- Title: Know When to Fuse: Investigating Non-English Hybrid Retrieval in the Legal Domain
- Title(参考訳): 法律領域における非英語ハイブリッド検索の調査
- Authors: Antoine Louis, Gijs van Dijck, Gerasimos Spanakis,
- Abstract要約: 本研究では,フランス語の未探索分野における検索モデルのハイブリッド検索の有効性について検討した。
その結果、ゼロショット環境では、異なるドメイン・ジェネラル・モデルの融合はスタンドアローン・モデルと比較して一貫して性能を向上することがわかった。
- 参考スコア(独自算出の注目度): 9.640321517709202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hybrid search has emerged as an effective strategy to offset the limitations of different matching paradigms, especially in out-of-domain contexts where notable improvements in retrieval quality have been observed. However, existing research predominantly focuses on a limited set of retrieval methods, evaluated in pairs on domain-general datasets exclusively in English. In this work, we study the efficacy of hybrid search across a variety of prominent retrieval models within the unexplored field of law in the French language, assessing both zero-shot and in-domain scenarios. Our findings reveal that in a zero-shot context, fusing different domain-general models consistently enhances performance compared to using a standalone model, regardless of the fusion method. Surprisingly, when models are trained in-domain, we find that fusion generally diminishes performance relative to using the best single system, unless fusing scores with carefully tuned weights. These novel insights, among others, expand the applicability of prior findings across a new field and language, and contribute to a deeper understanding of hybrid search in non-English specialized domains.
- Abstract(参考訳): ハイブリッド検索は,特に検索品質の顕著な改善が観察された領域外文脈において,異なるマッチングパラダイムの制約を相殺するための効果的な戦略として現れてきた。
しかし、既存の研究は主に限定的な検索手法に焦点をあてており、英語のみのドメイン一般データセットをペアで評価している。
本研究は,フランス語の未探索法分野における多種多様な検索モデルに対するハイブリッド検索の有効性について検討し,ゼロショットとインドメインの両方のシナリオを評価する。
その結果,0ショットの文脈では,異なるドメインジェネラルモデルとの融合は,融合法によらず,スタンドアローンモデルと比較して連続的に性能を向上することがわかった。
驚くべきことに、モデルがドメイン内でトレーニングされている場合、融合は、注意深く調整された重みでスコアを融合しない限り、最も優れた単一システムの使用と比較して、一般的にパフォーマンスを低下させる。
これらの新たな洞察は、新しい分野や言語にまたがる事前発見の適用性を高め、英語以外の専門分野におけるハイブリッド検索の深い理解に寄与する。
関連論文リスト
- Boundless Across Domains: A New Paradigm of Adaptive Feature and Cross-Attention for Domain Generalization in Medical Image Segmentation [1.93061220186624]
ドメイン不変表現学習は、ドメイン一般化の強力な方法である。
従来のアプローチでは、高い計算要求、トレーニングの不安定性、高次元データによる限られた有効性といった課題に直面していた。
本研究では,分布空間を探索しながら分布外サンプルを生成する適応的特徴ブレンディング(AFB)手法を提案する。
論文 参考訳(メタデータ) (2024-11-22T12:06:24Z) - Generalize or Detect? Towards Robust Semantic Segmentation Under Multiple Distribution Shifts [56.57141696245328]
斬新なクラスとドメインの両方が存在するようなオープンワールドシナリオでは、理想的なセグメンテーションモデルは安全のために異常なクラスを検出する必要がある。
既存の方法はドメインレベルとセマンティックレベルの分散シフトを区別するのに苦労することが多い。
論文 参考訳(メタデータ) (2024-11-06T11:03:02Z) - Understanding the Cross-Domain Capabilities of Video-Based Few-Shot Action Recognition Models [3.072340427031969]
Few-shot Action Recognition (FSAR) は、ビデオ中の新しいアクションをわずかに例を使って識別できるモデルを学ぶことを目的としている。
メタトレーニング中に見られるベースデータセットと評価に使用される新しいデータセットは、異なるドメインから得ることができると仮定すると、クロスドメインの少数ショット学習によってデータ収集とアノテーションコストが軽減される。
我々は、新しいクロスドメインタスクに対して、既存の最先端の単一ドメイン、転送ベース、およびクロスドメインFSARメソッドを体系的に評価する。
論文 参考訳(メタデータ) (2024-06-03T07:48:18Z) - Diffusion Features to Bridge Domain Gap for Semantic Segmentation [2.8616666231199424]
本稿では, 拡散モデルの特徴を効率的に活用するために, サンプリングおよび融合技術を活用するアプローチについて検討する。
テキスト・画像生成能力の強みを生かして、暗黙的に後部知識を学習する新しいトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-02T15:33:46Z) - Improving Domain Generalization with Domain Relations [77.63345406973097]
本稿では、モデルがトレーニングされたドメインと異なる新しいドメインに適用されたときに発生するドメインシフトに焦点を当てる。
ドメイン固有モデルを学習するためのD$3$Gという新しい手法を提案する。
以上の結果から,D$3$Gは最先端の手法より一貫して優れていた。
論文 参考訳(メタデータ) (2023-02-06T08:11:16Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z) - Domain Generalization via Selective Consistency Regularization for Time
Series Classification [16.338176636365752]
ドメイン一般化手法は、限られた数のソースドメインからのデータで、ドメインシフトに頑健なモデルを学習することを目的としている。
本稿では,ソースドメイン間の予測一貫性を選択的に適用する表現学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-16T01:57:35Z) - A Novel Mix-normalization Method for Generalizable Multi-source Person
Re-identification [49.548815417844786]
人物再識別(Re-ID)は、監督されたシナリオにおいて大きな成功を収めた。
モデルがソースドメインに過度に適合するため、教師付きモデルを任意の未確認領域に直接転送することは困難である。
ドメイン・アウェア・ミックス正規化(DMN)とドメイン・ウェア・センター正規化(DCR)からなるMixNormを提案する。
論文 参考訳(メタデータ) (2022-01-24T18:09:38Z) - f-Domain-Adversarial Learning: Theory and Algorithms [82.97698406515667]
教師なしのドメイン適応は、トレーニング中、ターゲットドメイン内のラベルなしデータにアクセス可能な、多くの機械学習アプリケーションで使用されている。
領域適応のための新しい一般化法を導出し、f-発散体の変分的特徴に基づく分布間の相違性の新しい尺度を利用する。
論文 参考訳(メタデータ) (2021-06-21T18:21:09Z) - A Review of Single-Source Deep Unsupervised Visual Domain Adaptation [81.07994783143533]
大規模ラベル付きトレーニングデータセットにより、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクを拡張できるようになった。
多くのアプリケーションにおいて、大量のラベル付きデータを取得するのは非常に高価で時間を要する。
限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている人も多い。
論文 参考訳(メタデータ) (2020-09-01T00:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。