論文の概要: Hypencoder Revisited: Reproducibility and Analysis of Non-Linear Scoring for First-Stage Retrieval
- arxiv url: http://arxiv.org/abs/2604.27037v1
- Date: Wed, 29 Apr 2026 17:05:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.731981
- Title: Hypencoder Revisited: Reproducibility and Analysis of Non-Linear Scoring for First-Stage Retrieval
- Title(参考訳): ハイペンコーダの再検討:1段階検索のための非線形スコーリングの再現性と解析
- Authors: Arne Eichholtz, Yongkang Li, Jutte Vijverberg, Tobias Groot, Mohammad Aliannejadi,
- Abstract要約: Hypencoderは、標準的なバイエンコーダで使用される固定内積スコアリング機能を、クエリ固有のニューラルネットワークに置き換える検索フレームワークである。
我々は、ハイペンコーダの研究を行い、元の解析を3方向に拡張する。
- 参考スコア(独自算出の注目度): 12.49873774352119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Hypencoder, proposed by Killingback et al., is a retrieval framework that replaces the fixed inner-product scoring function used in standard bi-encoders with a query-specific neural network (the $q$-net), whose weights are generated by a hypernetwork from the contextualized query embeddings. This design enables more expressive relevance estimation while preserving independent query and document encoding. In this work, we conduct a reproducibility study of the Hypencoder and extend the original analysis in three directions. Our reproduction confirms that the Hypencoder outperforms a similarly trained bi-encoder baseline on in-domain and out-of-domain benchmarks, and that the proposed efficient search algorithm substantially reduces query latency with minimal performance loss. On hard retrieval tasks, we find partial support: the Hypencoder outperforms the baseline on DL-Hard and FollowIR, but not on TREC TOT, where checkpoint incompatibility and fine-tuning sensitivity complicate full verification. Beyond reproduction, we investigate three extensions: (i)~integrating alternative pre-trained encoders into the Hypencoder framework, where we find that performance gains depend on the encoder and fine-tuning strategy; (ii)~comparing query latency against a Faiss-based bi-encoder pipeline, revealing that standard bi-encoder retrieval remains faster under both exhaustive and efficient search settings; and (iii)~evaluating adversarial robustness, where we find that the $q$-net's non-linear scoring does not provide a consistent robustness disadvantage over inner-product scoring. Our code is publicly available at https://github.com/arneeichholtz/Hypencoder-reprod.
- Abstract(参考訳): Killingbackらによって提案されたHypencoderは、標準的なバイエンコーダで使用される固定内積スコアリング関数をクエリ固有のニューラルネットワーク($q$-net)に置き換える検索フレームワークである。
この設計は、独立したクエリと文書エンコーディングを保持しながら、より表現力のある関連性推定を可能にする。
本研究では,ハイペンコーダの再現性について検討し,元の解析を3方向に拡張する。
我々の再現では、Hypencoderは、ドメイン内およびドメイン外ベンチマークで同様に訓練されたバイエンコーダベースラインより優れており、提案アルゴリズムは、性能損失を最小限に抑えて、クエリレイテンシを大幅に低減することを確認した。
ハード検索タスクでは、HypencoderはDL-HardとFollowIRのベースラインより優れているが、TREC TOTでは性能が良くない。
再生以外の3つの拡張について調べる。
i) 代替のトレーニング済みエンコーダをHypencoderフレームワークに統合すると、パフォーマンス向上はエンコーダと微調整戦略に依存していることがわかった。
(ii)– Faiss ベースのバイエンコーダパイプラインに対してクエリレイテンシを比較した結果,標準的なバイエンコーダ検索は,排他的かつ効率的な検索設定下においても高速であることが明らかとなった。
例えば、$q$-netの非線形スコアは、内積スコアよりも一貫した頑健さを損なわない。
私たちのコードはhttps://github.com/arneeichholtz/Hypencoder-reprod.comで公開されています。
関連論文リスト
- When Retriever Meets Generator: A Joint Model for Code Comment Generation [3.6781644685120924]
RAGSumは、単一のCodeT5バックボーンを使用して、ヒューズ検索と生成の上に構築されている。
対照的な事前学習フェーズは、最寄りの探索のためのコード埋め込みを形作る。
最終出力を研磨するために、軽量な自己精製ループが配置される。
論文 参考訳(メタデータ) (2025-07-16T18:12:27Z) - Improving Code Search with Hard Negative Sampling Based on Fine-tuning [15.341959871682981]
本稿では,クエリとコードの結合を共同で符号化するコード検索のためのクロスエンコーダアーキテクチャを提案する。
また、両エンコーダとクロスエンコーダをカスケードしたRetriever-Ranker(RR)フレームワークを導入し、評価とオンラインサービスの有効性を高める。
論文 参考訳(メタデータ) (2023-05-08T07:04:28Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler
Alignment of Embeddings for Asymmetrical dual encoders [89.29256833403169]
我々は,高密度検索手法の推論効率を高めるための効率的かつ正確な手法であるKulback Leibler Alignment of Embeddings (KALE)を紹介した。
KALEは、バイエンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。
KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。
論文 参考訳(メタデータ) (2023-03-31T15:44:13Z) - Revisiting Code Search in a Two-Stage Paradigm [67.02322603435628]
TOSSは2段階のフュージョンコード検索フレームワークである。
まずIRベースのバイエンコーダモデルを使用して、少数のトップkコード候補を効率的にリコールする。
その後、より微細なクロスエンコーダを使用してランク付けを行う。
論文 参考訳(メタデータ) (2022-08-24T02:34:27Z) - D^2ETR: Decoder-Only DETR with Computationally Efficient Cross-Scale
Attention [27.354159713970322]
我々はD2ETRと呼ばれるデコーダのみの検出器を提案する。
エンコーダがない場合、デコーダはTransformerのバックボーンによって生成された細分化された特徴マップに直接出席する。
D2ETRはCOCOベンチマークの評価において計算複雑性が低く、高い検出精度を示す。
論文 参考訳(メタデータ) (2022-03-02T04:21:12Z) - Query-aware Tip Generation for Vertical Search [42.83771233373902]
チップ生成に関する既存の作業は、検索シナリオにおけるチップの影響を制限するクエリを考慮に入れていない。
本稿では,クエリ情報をエンコーディングおよびその後の復号処理に統合する,クエリ対応のチップ生成フレームワークを提案する。
このフレームワークは、パブリックと実世界の両方の産業データセットで競合する手法を一貫して上回っている。
論文 参考訳(メタデータ) (2020-10-19T06:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。