論文の概要: Hierarchical Semantic Retrieval with Cobweb
- arxiv url: http://arxiv.org/abs/2510.02539v1
- Date: Thu, 02 Oct 2025 20:14:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.162372
- Title: Hierarchical Semantic Retrieval with Cobweb
- Title(参考訳): Cobwebによる階層的セマンティック検索
- Authors: Anant Gupta, Karthik Singaravadivelan, Zekun Wang,
- Abstract要約: Cobwebを使って文の埋め込みをプロトタイプツリーに整理し、文書をランク付けします。
一般化されたベストファースト検索と軽量パスサムローカの2つの推論手法をインスタンス化する。
提案手法は,kNNが劣化しても頑健でありながら,強いエンコーダ埋め込み上でのドット積探索と一致することを示す。
- 参考スコア(独自算出の注目度): 3.4936165917112745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural document retrieval often treats a corpus as a flat cloud of vectors scored at a single granularity, leaving corpus structure underused and explanations opaque. We use Cobweb--a hierarchy-aware framework--to organize sentence embeddings into a prototype tree and rank documents via coarse-to-fine traversal. Internal nodes act as concept prototypes, providing multi-granular relevance signals and a transparent rationale through retrieval paths. We instantiate two inference approaches: a generalized best-first search and a lightweight path-sum ranker. We evaluate our approaches on MS MARCO and QQP with encoder (e.g., BERT/T5) and decoder (GPT-2) representations. Our results show that our retrieval approaches match the dot product search on strong encoder embeddings while remaining robust when kNN degrades: with GPT-2 vectors, dot product performance collapses whereas our approaches still retrieve relevant results. Overall, our experiments suggest that Cobweb provides competitive effectiveness, improved robustness to embedding quality, scalability, and interpretable retrieval via hierarchical prototypes.
- Abstract(参考訳): ニューラル文書検索はしばしば、コーパスを単一の粒度で得られるベクトルの平坦な雲として扱い、コーパス構造は未使用のままであり、説明は不透明である。
文の埋め込みをプロトタイプツリーに整理し,粗大なトラバーサルによる文書のランク付けを行うための階層型フレームワークであるCobwebを使用している。
内部ノードは概念のプロトタイプとして機能し、検索経路を通じて複数の粒界関連信号と透明な合理性を提供する。
一般化されたベストファースト検索と軽量パスサムローカの2つの推論手法をインスタンス化する。
我々は、エンコーダ(例えば、BERT/T5)とデコーダ(GPT-2)を用いて、MS MARCOとQQPに対するアプローチを評価する。
我々の検索手法は, 強いエンコーダの埋め込みにおいて, kNNが劣化しても頑健なドット積探索と一致し, GPT-2ベクターではドット積性能が低下する一方で, 関連した結果がまだ得られていないことを示す。
全体として、我々の実験は、Cobwebが競争効率、組込み品質への堅牢性の改善、スケーラビリティ、階層型プロトタイプによる解釈可能な検索を提供することを示唆している。
関連論文リスト
- ReTreever: Tree-based Coarse-to-Fine Representations for Retrieval [64.44265315244579]
そこで本研究では,様々なレベルで参照文書を整理し,表現するためのツリーベース手法を提案する。
我々の手法はReTreeverと呼ばれ、クエリと参照ドキュメントが同様のツリーブランチに割り当てられるように、バイナリツリーの内部ノード毎のルーティング関数を共同で学習する。
我々の評価では、ReTreeverは一般的に完全な表現精度を保っている。
論文 参考訳(メタデータ) (2025-02-11T21:35:13Z) - Generalization Bounds via Meta-Learned Model Representations: PAC-Bayes and Sample Compression Hypernetworks [47.83977297248753]
本稿では,ニューラルネットワークに対する厳密な(空でない)一般化境界を導出するためのメタラーニング手法を提案する。
このアプローチの独創性は、パラメータを復号する前にデータセットをエンコードする調査されたハイパーネットワークアーキテクチャにあります。
後者の定理は、エンコーダ・デコーダ・ジャンクションで通過する重要な情報を利用して、我々のスキームによって得られた下流予測器毎の一般化保証を計算する。
論文 参考訳(メタデータ) (2024-10-17T14:12:35Z) - Structure-Aware DropEdge Towards Deep Graph Convolutional Networks [83.38709956935095]
グラフ畳み込みネットワーク(GCN)は、複数のレイヤが積み重なると、パフォーマンスが著しく低下する。
オーバースムーシングは、入力からのネットワーク出力を、ネットワーク深さの増加、表現率の低下、およびトレーニング容易性によって分離する。
我々はDropEdgeの洗練された対策について検討する。
論文 参考訳(メタデータ) (2023-06-21T08:11:40Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。