Fugu-MT 論文翻訳(概要): Finding Needles in Emb(a)dding Haystacks: Legal Document Retrieval via Bagging and SVR Ensembles

論文の概要: Finding Needles in Emb(a)dding Haystacks: Legal Document Retrieval via Bagging and SVR Ensembles

arxiv url: http://arxiv.org/abs/2501.05018v1
Date: Thu, 09 Jan 2025 07:21:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-10 17:34:41.421484
Title: Finding Needles in Emb(a)dding Haystacks: Legal Document Retrieval via Bagging and SVR Ensembles
Title（参考訳）: Emb(a)dding Haystacksにおける針の発見:baggingとSVRアンサンブルによる法的文書検索
Authors: Kevin Bönisch, Alexander Mehler,
Abstract要約: 本稿では,サポートベクタ回帰アンサンブル,ブートストラップアグリゲーション(バッグ),およびドイツ法情報検索データベース(GerDaLIR)への埋め込み空間を利用した検索手法を提案する。投票アンサンブルを用いてベースライン上のリコールの改善を示し、トレーニングやディープラーニングモデルを微調整することなく、有望な初期結果を提案する。
参考スコア（独自算出の注目度）: 51.0691253204425
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a retrieval approach leveraging Support Vector Regression (SVR) ensembles, bootstrap aggregation (bagging), and embedding spaces on the German Dataset for Legal Information Retrieval (GerDaLIR). By conceptualizing the retrieval task in terms of multiple binary needle-in-a-haystack subtasks, we show improved recall over the baselines (0.849 > 0.803 | 0.829) using our voting ensemble, suggesting promising initial results, without training or fine-tuning any deep learning models. Our approach holds potential for further enhancement, particularly through refining the encoding models and optimizing hyperparameters.
Abstract（参考訳）: 本稿では,サポートベクトル回帰(SVR)アンサンブル,ブートストラップアグリゲーション(バッグ),およびドイツ法定情報検索用データセット(GerDaLIR)への埋め込み空間を利用した検索手法を提案する。提案手法では,複数の二分針-a-haystackサブタスクを用いて検索タスクを概念化し,投票アンサンブルを用いてベースライン(0.849 > 0.803 | 0.829)のリコールを改良し,学習モデルの訓練や微調整を行わずに有望な初期結果を提示する。我々のアプローチは、特にエンコーディングモデルの改良とハイパーパラメータの最適化によって、さらなる拡張の可能性を秘めている。

関連論文リスト

Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文参考訳（メタデータ） (2025-04-07T15:27:37Z)
Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文参考訳（メタデータ） (2025-01-08T20:11:09Z)
RaSeRec: Retrieval-Augmented Sequential Recommendation [27.276639257126664]
本稿では,RaSeRecという名称のRetrieval-Augmented Sequential Recommendationフレームワークを提案する。 RaSeRecは動的メモリバンクをメンテナンスし、好みのドリフトを許容し、関連するメモリを取得し、ユーザーモデリングを明示的に強化する。これは、コラボレーティブベースの事前学習(コラボレーティブベース)、レコメンデーションとレコメンデーションを学習する(ii)検索強化微調整(recovery-augmented fine-tuning)、検索された記憶を活用することを学ぶ。
論文参考訳（メタデータ） (2024-12-24T12:07:48Z)
COBRA: COmBinatorial Retrieval Augmentation for Few-Shot Learning [5.840239260337972]
我々は,COBRA(COmBinatorial Retrieval Augmentation,COBRA)を提案する。 COBRAは、ダウンストリームモデルの性能を大幅に向上させながら、検索コストに無視可能な計算オーバーヘッドを導入している。
論文参考訳（メタデータ） (2024-12-23T16:10:07Z)
RREH: Reconstruction Relations Embedded Hashing for Semi-Paired Cross-Modal Retrieval [32.06421737874828]
Restructation Relations Embedded Hashing (RREH) は、半ペア型クロスモーダル検索タスク用に設計されている。 RREHはマルチモーダルデータが共通の部分空間を共有すると仮定する。アンカーはペアのデータからサンプリングされハッシュ学習の効率が向上します
論文参考訳（メタデータ） (2024-05-28T03:12:54Z)
Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。 LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文参考訳（メタデータ） (2024-02-27T14:21:56Z)
GAR-meets-RAG Paradigm for Zero-Shot Information Retrieval [16.369071865207808]
本稿では,既存のパラダイムの課題を克服する新しいGAR-meets-RAG再帰の定式化を提案する。鍵となる設計原則は、リライト・検索段階がシステムのリコールを改善し、最終段階が精度を向上させることである。我々の手法はBEIRベンチマークで新たな最先端性を確立し、8つのデータセットのうち6つでRecall@100とnDCG@10の指標で過去の最高の結果を上回った。
論文参考訳（メタデータ） (2023-10-31T03:52:08Z)
Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文参考訳（メタデータ） (2023-07-28T16:03:28Z)
BatchGFN: Generative Flow Networks for Batch Active Learning [80.73649229919454]
BatchGFNは、生成フローネットワークを使用してバッチ報酬に比例したデータポイントのセットをサンプリングする、プールベースのアクティブラーニングのための新しいアプローチである。提案手法は,おもちゃの回帰問題において,1点当たり1回の前方通過で推定時間に近距離最適効用バッチをサンプリングすることを可能にした。
論文参考訳（メタデータ） (2023-06-26T20:41:36Z)
Continual Contrastive Finetuning Improves Low-Resource Relation Extraction [34.76128090845668]
関係抽出は低リソースのシナリオやドメインでは特に困難である。近年の文献は自己教師型学習によって低リソースREに取り組みつつある。コントラスト学習の一貫した目的を用いたREモデルの事前学習と微調整を提案する。
論文参考訳（メタデータ） (2022-12-21T07:30:22Z)
SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文参考訳（メタデータ） (2021-09-21T10:43:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。