論文の概要: Bottleneck-Minimal Indexing for Generative Document Retrieval
- arxiv url: http://arxiv.org/abs/2405.10974v2
- Date: Tue, 21 May 2024 01:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 17:23:37.945589
- Title: Bottleneck-Minimal Indexing for Generative Document Retrieval
- Title(参考訳): 生成文書検索のためのボトルネック最小インデックス作成
- Authors: Xin Du, Lixin Xiu, Kumiko Tanaka-Ishii,
- Abstract要約: 生成文書検索(GDR)の再検討に情報理論的視点を適用した。
GDRは、ドキュメントからクエリへの情報送信を$X$から$Q$とみなすことができる。
シャノンの速度歪み理論を適用することで、インデクシングの最適性は相互情報の観点から分析することができる。
- 参考スコア(独自算出の注目度): 21.854386501720608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We apply an information-theoretic perspective to reconsider generative document retrieval (GDR), in which a document $x \in X$ is indexed by $t \in T$, and a neural autoregressive model is trained to map queries $Q$ to $T$. GDR can be considered to involve information transmission from documents $X$ to queries $Q$, with the requirement to transmit more bits via the indexes $T$. By applying Shannon's rate-distortion theory, the optimality of indexing can be analyzed in terms of the mutual information, and the design of the indexes $T$ can then be regarded as a {\em bottleneck} in GDR. After reformulating GDR from this perspective, we empirically quantify the bottleneck underlying GDR. Finally, using the NQ320K and MARCO datasets, we evaluate our proposed bottleneck-minimal indexing method in comparison with various previous indexing methods, and we show that it outperforms those methods.
- Abstract(参考訳): 本稿では,情報理論を用いて生成文書検索(GDR)を再検討し,文書の$x \in X$を$t \in T$でインデックスし,ニューラルネットワークの自己回帰モデルを用いてクエリを$Q$から$T$にマッピングする。
GDRは、ドキュメントからクエリへの情報送信を$X$から$Q$とみなすことができる。
シャノンの速度歪み理論を適用することで、インデクシングの最適性は相互情報の観点から分析することができ、インデックスの$T$ は GDR において {\displaystyle {\em bottleneck} とみなすことができる。
この観点からGDRを再構成した後、我々はGDRの根底にあるボトルネックを実証的に定量化する。
最後に,NQ320K と MARCO のデータセットを用いて,提案したボトルネック最小インデックス法を,従来のインデックス法と比較して評価し,それらの手法よりも優れていることを示す。
関連論文リスト
- Generative Retrieval with Few-shot Indexing [32.19543023080197]
トレーニングベースの索引付けには3つの制限がある。高いトレーニングオーバーヘッド、大規模言語モデルのトレーニング済み知識の未使用、動的ドキュメントコーパスへの適応の課題である。
Few-Shot GR は訓練を必要とせず LLM の推進にのみ依存しており、より効率的である。
実験により、Few-Shot GRは、重い訓練を必要とする最先端のGR法よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-08-04T22:00:34Z) - Semi-Parametric Retrieval via Binary Token Index [71.78109794895065]
Semi-parametric Vocabulary Disentangled Retrieval (SVDR) は、新しい半パラメトリック検索フレームワークである。
既存のニューラル検索手法に似た、高い有効性のための埋め込みベースのインデックスと、従来の用語ベースの検索に似た、迅速かつ費用対効果の高いセットアップを可能にするバイナリトークンインデックスの2つのタイプをサポートする。
埋め込みベースインデックスを使用する場合の高密度検索器DPRよりも3%高いトップ1検索精度と、バイナリトークンインデックスを使用する場合のBM25よりも9%高いトップ1検索精度を実現する。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - FDR-Controlled Portfolio Optimization for Sparse Financial Index
Tracking [10.86851797584794]
高次元データ解析では、偽発見率(FDR)の制御を維持しつつ、少数の関連する変数を選択することが重要である。
我々は高相関変数の重なり合うグループに対応するためにT-Rexフレームワークを拡張した。
これは、ユーザが定義したターゲットレベルでFDRを確実に制御する、近隣のペナル化機構をフレームワークに統合することで実現される。
論文 参考訳(メタデータ) (2024-01-26T18:29:30Z) - Generative Dense Retrieval: Memory Can Be a Burden [16.964086245755798]
Generative Retrieval (GR) はクエリが与えられたドキュメント識別子を自動でデコードする。
Dense Retrieval (DR) はクラスタから関連ドキュメントへのきめ細かいクラスタ内マッチングを実現するために導入された。
DRは、NQデータセットを複数の設定で平均3.0R@100改善する。
論文 参考訳(メタデータ) (2024-01-19T04:24:07Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文 参考訳(メタデータ) (2022-12-19T18:59:34Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - How to Query An Oracle? Efficient Strategies to Label Data [59.89900843097016]
機械学習におけるデータセットのラベル付けに専門家の託宣を照会する際の基本的な問題について考察する。
本稿では,サンプルをラベル付けするために,ラウンド・バイ・ラウンドでランダム化されたバッチアルゴリズムを提案し,クエリレートが$O(fracNk2)$であることを示す。
さらに,適応型グリージークエリ方式を提案し,三重項クエリを用いたサンプルあたり平均$approx 0.2N$クエリを実現する。
論文 参考訳(メタデータ) (2021-10-05T20:15:35Z) - On the Difference Between the Information Bottleneck and the Deep
Information Bottleneck [81.89141311906552]
本稿では,Deep Variational Information Bottleneckとその導出に必要な仮定について再考する。
後者のマルコフ連鎖のみを満たすべき$I(T;Y)$に対して下界を最適化することで、この制限を回避する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。