論文の概要: Finding Needles in Emb(a)dding Haystacks: Legal Document Retrieval via Bagging and SVR Ensembles
- arxiv url: http://arxiv.org/abs/2501.05018v1
- Date: Thu, 09 Jan 2025 07:21:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:59:46.557689
- Title: Finding Needles in Emb(a)dding Haystacks: Legal Document Retrieval via Bagging and SVR Ensembles
- Title(参考訳): Emb(a)dding Haystacksにおける針の発見:baggingとSVRアンサンブルによる法的文書検索
- Authors: Kevin Bönisch, Alexander Mehler,
- Abstract要約: 本稿では,サポートベクタ回帰アンサンブル,ブートストラップアグリゲーション(バッグ),およびドイツ法情報検索データベース(GerDaLIR)への埋め込み空間を利用した検索手法を提案する。
投票アンサンブルを用いてベースライン上のリコールの改善を示し、トレーニングやディープラーニングモデルを微調整することなく、有望な初期結果を提案する。
- 参考スコア(独自算出の注目度): 51.0691253204425
- License:
- Abstract: We introduce a retrieval approach leveraging Support Vector Regression (SVR) ensembles, bootstrap aggregation (bagging), and embedding spaces on the German Dataset for Legal Information Retrieval (GerDaLIR). By conceptualizing the retrieval task in terms of multiple binary needle-in-a-haystack subtasks, we show improved recall over the baselines (0.849 > 0.803 | 0.829) using our voting ensemble, suggesting promising initial results, without training or fine-tuning any deep learning models. Our approach holds potential for further enhancement, particularly through refining the encoding models and optimizing hyperparameters.
- Abstract(参考訳): 本稿では,サポートベクトル回帰(SVR)アンサンブル,ブートストラップアグリゲーション(バッグ),およびドイツ法定情報検索用データセット(GerDaLIR)への埋め込み空間を利用した検索手法を提案する。
提案手法では,複数の二分針-a-haystackサブタスクを用いて検索タスクを概念化し,投票アンサンブルを用いてベースライン(0.849 > 0.803 | 0.829)のリコールを改良し,学習モデルの訓練や微調整を行わずに有望な初期結果を提示する。
我々のアプローチは、特にエンコーディングモデルの改良とハイパーパラメータの最適化によって、さらなる拡張の可能性を秘めている。
関連論文リスト
- Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - RaSeRec: Retrieval-Augmented Sequential Recommendation [27.276639257126664]
本稿では,RaSeRecという名称のRetrieval-Augmented Sequential Recommendationフレームワークを提案する。
RaSeRecは動的メモリバンクをメンテナンスし、好みのドリフトを許容し、関連するメモリを取得し、ユーザーモデリングを明示的に強化する。
これは、コラボレーティブベースの事前学習(コラボレーティブベース)、レコメンデーションとレコメンデーションを学習する(ii)検索強化微調整(recovery-augmented fine-tuning)、検索された記憶を活用することを学ぶ。
論文 参考訳(メタデータ) (2024-12-24T12:07:48Z) - COBRA: COmBinatorial Retrieval Augmentation for Few-Shot Learning [5.840239260337972]
我々は,COBRA(COmBinatorial Retrieval Augmentation,COBRA)を提案する。
COBRAは、ダウンストリームモデルの性能を大幅に向上させながら、検索コストに無視可能な計算オーバーヘッドを導入している。
論文 参考訳(メタデータ) (2024-12-23T16:10:07Z) - RREH: Reconstruction Relations Embedded Hashing for Semi-Paired Cross-Modal Retrieval [32.06421737874828]
Restructation Relations Embedded Hashing (RREH) は、半ペア型クロスモーダル検索タスク用に設計されている。
RREHはマルチモーダルデータが共通の部分空間を共有すると仮定する。
アンカーはペアのデータからサンプリングされ ハッシュ学習の効率が向上します
論文 参考訳(メタデータ) (2024-05-28T03:12:54Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - GAR-meets-RAG Paradigm for Zero-Shot Information Retrieval [16.369071865207808]
本稿では,既存のパラダイムの課題を克服する新しいGAR-meets-RAG再帰の定式化を提案する。
鍵となる設計原則は、リライト・検索段階がシステムのリコールを改善し、最終段階が精度を向上させることである。
我々の手法はBEIRベンチマークで新たな最先端性を確立し、8つのデータセットのうち6つでRecall@100とnDCG@10の指標で過去の最高の結果を上回った。
論文 参考訳(メタデータ) (2023-10-31T03:52:08Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - BatchGFN: Generative Flow Networks for Batch Active Learning [80.73649229919454]
BatchGFNは、生成フローネットワークを使用してバッチ報酬に比例したデータポイントのセットをサンプリングする、プールベースのアクティブラーニングのための新しいアプローチである。
提案手法は,おもちゃの回帰問題において,1点当たり1回の前方通過で推定時間に近距離最適効用バッチをサンプリングすることを可能にした。
論文 参考訳(メタデータ) (2023-06-26T20:41:36Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-21T10:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。