Fugu-MT 論文翻訳(概要): A Reproducibility Study of PLAID

論文の概要: A Reproducibility Study of PLAID

arxiv url: http://arxiv.org/abs/2404.14989v1
Date: Tue, 23 Apr 2024 12:46:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 14:01:50.128069
Title: A Reproducibility Study of PLAID
Title（参考訳）: PLAIDの再現性に関する研究
Authors: Sean MacAvaney, Nicola Tonellotto,
Abstract要約: 我々はPLAIDと論文から欠落した重要なベースラインを比較した。 ColBERTv2 を BM25 の初期プール上に再ランカとして適用することにより,低レイテンシ環境での効率効率・効率性トレードオフが向上することがわかった。この制限を克服するために、最近提案された上位文書の隣人を引き出すように、再ランク付けする修正が提案されていることが分かりました。
参考スコア（独自算出の注目度）: 25.86500025007641
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The PLAID (Performance-optimized Late Interaction Driver) algorithm for ColBERTv2 uses clustered term representations to retrieve and progressively prune documents for final (exact) document scoring. In this paper, we reproduce and fill in missing gaps from the original work. By studying the parameters PLAID introduces, we find that its Pareto frontier is formed of a careful balance among its three parameters; deviations beyond the suggested settings can substantially increase latency without necessarily improving its effectiveness. We then compare PLAID with an important baseline missing from the paper: re-ranking a lexical system. We find that applying ColBERTv2 as a re-ranker atop an initial pool of BM25 results provides better efficiency-effectiveness trade-offs in low-latency settings. However, re-ranking cannot reach peak effectiveness at higher latency settings due to limitations in recall of lexical matching and provides a poor approximation of an exhaustive ColBERTv2 search. We find that recently proposed modifications to re-ranking that pull in the neighbors of top-scoring documents overcome this limitation, providing a Pareto frontier across all operational points for ColBERTv2 when evaluated using a well-annotated dataset. Curious about why re-ranking methods are highly competitive with PLAID, we analyze the token representation clusters PLAID uses for retrieval and find that most clusters are predominantly aligned with a single token and vice versa. Given the competitive trade-offs that re-ranking baselines exhibit, this work highlights the importance of carefully selecting pertinent baselines when evaluating the efficiency of retrieval engines.
Abstract（参考訳）: ColBERTv2 の PLAID (Performance-Optimized Late Interaction Driver) アルゴリズムはクラスタ化された項表現を用いて、最終(実際に)文書のスコアリングを段階的に行う。本稿では,オリジナル作品から欠落したギャップを再現し,埋める。 PLAIDが導入するパラメータを調べたところ,Paretoフロンティアは3つのパラメータのうち,注意深いバランスで形成されていることがわかった。次に、PLAIDと論文から欠落した重要なベースラインを比較し、語彙システムを再ランク付けする。 ColBERTv2 を BM25 の初期プール上に再ランカとして適用することにより,低レイテンシ環境での効率効率・効率性トレードオフが向上することがわかった。しかし、語彙マッチングのリコールの制限により、より高いレイテンシ設定において、再ランクはピーク効率に達することができず、徹底したColBERTv2探索の近似が不十分である。 ColBERTv2のすべての運用ポイントにわたるParetoフロンティアを、よく注釈付きデータセットを使用して評価することで実現している。 PLAIDに対して再ランク付け手法が高い競争力を持つ理由について,PLAIDが検索に使用するトークン表現クラスタを分析し,ほとんどのクラスタが1つのトークンに概ね一致していることと,その逆について考察する。ベースラインを再ランク付けする競争上のトレードオフを考えると,本研究は,検索エンジンの効率性を評価する上で,関連するベースラインを慎重に選択することの重要性を強調している。

関連論文リスト

PRECTR-V2:Unified Relevance-CTR Framework with Cross-User Preference Mining, Exposure Bias Correction, and LLM-Distilled Encoder Optimization [6.17916814159778]
検索システムでは、検索関連性マッチングとクリックスルー率(CTR)予測の2つのコア目標を効果的に調整することが重要である。グローバルなレバレンス選好をマイニングすることで,低活性ユーザのスパース行動問題を緩和するPreCTR-V2を提案する。このエンコーダは凍ったBERTモジュールを置き換え、CTRの微調整に適応し、従来のEmb+MLPパラダイムを超えて前進する。
論文参考訳（メタデータ） (2026-02-24T08:26:17Z)
E2Rank: Your Text Embedding can Also be an Effective and Efficient Listwise Reranker [39.61739668491574]
本稿では,単一のテキスト埋め込みモデルを拡張し,高品質な検索とリストワイズを両立させるシンプルな統合フレームワークであるE2Rankを提案する。クエリとドキュメント埋め込みのコサイン類似性を統一ランキング関数として適用することにより、リストワイドランキングプロンプトは、上位K文書からの信号に富んだ拡張クエリとして機能する。 E2Rankは、推論集約型BRIGHTベンチマークで最先端の結果を達成し、再ランクのレイテンシが非常に低い。
論文参考訳（メタデータ） (2025-10-26T16:04:48Z)
Optimizing Legal Document Retrieval in Vietnamese with Semi-Hard Negative Mining [4.233176571117095]
本稿では,法的文書検索の効率と精度を高めるために,検索と再ランクからなる2段階の枠組みを提案する。鍵となるイノベーションは、検索の有効性を評価するExist@mメトリックの導入と、トレーニングバイアスを軽減するためのセミハードネガティブの使用である。このフレームワークは、最適化されたデータ処理、調整された損失関数、バランスの取れた負のサンプリングが、法的な文脈で堅牢な検索強化システムを構築する上で重要であることを示す。
論文参考訳（メタデータ） (2025-07-19T13:30:14Z)
Breaking the Lens of the Telescope: Online Relevance Estimation over Large Retrieval Sets [15.549852480638066]
本稿では,オンライン関連度推定という新たな手法を提案する。オンライン関連度推定は、ランキングプロセスを通して、クエリの関連度推定を継続的に更新する。 TRECベンチマークの手法をハイブリッド検索と適応検索の2つのシナリオで検証する。
論文参考訳（メタデータ） (2025-04-12T22:05:50Z)
Gumbel Reranking: Differentiable End-to-End Reranker Optimization [61.16471123356738]
RAGシステムは関連する文書を識別するためにリランカーに依存している。注釈付きクエリ-ドキュメントペアが不足しているため、これらのモデルの微調整は依然として難しい。我々は,トレーニングと推論のギャップを最小限に抑えることを目的とした,リランカーのためのエンドツーエンドのトレーニングフレームワークであるGumbel Re rankを提案する。
論文参考訳（メタデータ） (2025-02-16T13:23:39Z)
An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文参考訳（メタデータ） (2024-11-08T12:08:17Z)
Towards Competitive Search Relevance For Inference-Free Learned Sparse Retrievers [6.773411876899064]
推測のないスパースモデルは検索の関連という点ではるかに遅れていますスパースモデルと密集したサイムズモデルの両方と比較してまず,IDF(Inverted Document Frequency)を導入したIFF対応のFLOPS損失を表現のスペーシングに導入する。その結果、FLOPS正則化が検索関連性に与える影響を軽減し、精度と効率のバランスが良くなることがわかった。
論文参考訳（メタデータ） (2024-11-07T03:46:43Z)
Efficient Document Ranking with Learnable Late Interactions [73.41976017860006]
クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。近年、DEM構造と軽量スコアラを用いて、より好ましいレイテンシ品質のトレードオフを実現するために、遅延相互作用モデルが提案されている。
論文参考訳（メタデータ） (2024-06-25T22:50:48Z)
Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression [63.23578860867408]
重要度評価と疎度評価を1段階にまとめる方法について検討する。重要度と疎度の両方を同時に評価するコスト効率の高いOFBを提案する。実験により、OFBは最先端のサーチベースおよびプルーニングベース手法よりも優れた圧縮性能が得られることが示された。
論文参考訳（メタデータ） (2024-03-23T13:22:36Z)
Large-scale Point Cloud Registration Based on Graph Matching Optimization [30.92028761652611]
アンダーライン最適化に基づくアンダーライングラフアンダーラインマッチングを提案する。提案手法は3DMatch/3DLoMatchベンチマークとKITTIベンチマークで評価されている。
論文参考訳（メタデータ） (2023-02-12T03:29:35Z)
Deep Active Ensemble Sampling For Image Classification [8.31483061185317]
アクティブラーニングフレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。提案手法には、不確実性に基づく手法、幾何学的手法、不確実性に基づく手法と幾何学的手法の暗黙の組み合わせなどがある。本稿では, サンプル選択戦略における効率的な探索・探索トレードオフを実現するために, 不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合する。本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。
論文参考訳（メタデータ） (2022-10-11T20:20:20Z)
ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文参考訳（メタデータ） (2022-07-14T17:46:37Z)
Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文参考訳（メタデータ） (2021-10-12T17:58:59Z)
SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文参考訳（メタデータ） (2021-09-21T10:43:42Z)
CRACT: Cascaded Regression-Align-Classification for Robust Visual Tracking [97.84109669027225]
改良された提案改良モジュールCascaded Regression-Align- Classification (CRAC)を導入する。 CRACは多くのベンチマークで最先端のパフォーマンスを得る。 OTB-2015、UAV123、NfS、VOT-2018、TrackingNet、GOT-10k、LaSOTを含む7つのベンチマークの実験において、我々のCRACTは最先端の競合他社と比較して非常に有望な結果を示している。
論文参考訳（メタデータ） (2020-11-25T02:18:33Z)
ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT [24.288824715337483]
ColBERTは、ディープLMを効率的な検索に適応させる新しいランキングモデルである。我々は最近の2つの経路探索データセットを用いてColBERTを広範囲に評価した。
論文参考訳（メタデータ） (2020-04-27T14:21:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。