論文の概要: Scaling the Vocabulary of Non-autoregressive Models for Efficient Generative Retrieval
- arxiv url: http://arxiv.org/abs/2406.06739v1
- Date: Mon, 10 Jun 2024 19:01:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 20:25:28.272046
- Title: Scaling the Vocabulary of Non-autoregressive Models for Efficient Generative Retrieval
- Title(参考訳): 効率的な生成検索のための非自己回帰モデルの語彙のスケーリング
- Authors: Ravisri Valluri, Akash Kumar Mohankumar, Kushal Dave, Amit Singh, Jian Jiao, Manik Varma, Gaurav Sinha,
- Abstract要約: 本稿では、生成的検索のより効率的な代替手段として、完全非自己回帰(NAR)言語モデルについて検討する。
PIXARは,NARモデルのターゲット語彙を拡張し,複数単語のエンティティや共通フレーズを含む新しいアプローチである。
PIXARはMS MARCOで31.0%,Hits@5で23.2%,MRR@10で31.0%向上した。
- 参考スコア(独自算出の注目度): 12.462709389923393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Retrieval introduces a new approach to Information Retrieval by reframing it as a constrained generation task, leveraging recent advancements in Autoregressive (AR) language models. However, AR-based Generative Retrieval methods suffer from high inference latency and cost compared to traditional dense retrieval techniques, limiting their practical applicability. This paper investigates fully Non-autoregressive (NAR) language models as a more efficient alternative for generative retrieval. While standard NAR models alleviate latency and cost concerns, they exhibit a significant drop in retrieval performance (compared to AR models) due to their inability to capture dependencies between target tokens. To address this, we question the conventional choice of limiting the target token space to solely words or sub-words. We propose PIXAR, a novel approach that expands the target vocabulary of NAR models to include multi-word entities and common phrases (up to 5 million tokens), thereby reducing token dependencies. PIXAR employs inference optimization strategies to maintain low inference latency despite the significantly larger vocabulary. Our results demonstrate that PIXAR achieves a relative improvement of 31.0% in MRR@10 on MS MARCO and 23.2% in Hits@5 on Natural Questions compared to standard NAR models with similar latency and cost. Furthermore, online A/B experiments on a large commercial search engine show that PIXAR increases ad clicks by 5.08% and revenue by 4.02%.
- Abstract(参考訳): Generative Retrievalは、制約付き生成タスクとして、Autoregressive (AR)言語モデルの最近の進歩を活用することで、Information Retrievalに新しいアプローチを導入する。
しかし、ARベースのジェネレーティブ検索手法は、従来の高密度検索手法と比較して高い推論遅延とコストに悩まされており、実用性に制限がある。
本稿では、生成的検索のより効率的な代替手段として、完全非自己回帰(NAR)言語モデルについて検討する。
標準的なNARモデルはレイテンシとコストの懸念を軽減するが、ターゲットトークン間の依存関係をキャプチャできないため、検索パフォーマンス(ARモデルと比較)が大幅に低下する。
この問題に対処するために、ターゲットトークン空間を単に単語やサブワードに限定する従来の選択に疑問を呈する。
PIXARは,NARモデルのターゲット語彙を拡張して,複数単語のエンティティと共通フレーズ(最大500万トークン)を含む新しいアプローチを提案する。
PIXARは、非常に大きな語彙にもかかわらず、低推論レイテンシを維持するために推論最適化戦略を採用している。
PIXARはMS MARCOではMRR@10で31.0%,Hits@5では23.2%の相対的な改善を実現している。
さらに、大規模な商用検索エンジンでのオンラインA/B実験では、PIXARは広告クリックを5.08%増加し、収益は4.02%増加した。
関連論文リスト
- Investigating Training Strategies and Model Robustness of Low-Rank
Adaptation for Language Modeling in Speech Recognition [27.515920408920216]
フリーズドプレトレーニング言語モデル(PLM)を用いたローランク適応(LoRA)は、メモリ制約ハードウェアのための資源効率の高いモデリング手法である。
本研究では,様々なLoRAトレーニング戦略を導入することにより,モデル性能を向上させる方法について検討する。
LoRAに基づく第2パス音声認識モデルの安定性をさらに評価するため,入力摂動に対する検討を行った。
論文 参考訳(メタデータ) (2024-01-19T01:30:16Z) - Re-parameterized Low-rank Prompt: Generalize a Vision-Language Model
within 0.5K Parameters [75.28536311904489]
そこで我々は,RLP(Re- parameterized Low-rank Prompt)という新しいタイプのプロンプトを開発した。
11データセットを超える一連のタスクにおいて、RLPは0.5Kパラメータだけで古典的なプロンプトチューニングの平均下流精度を最大5.25%向上させる。
論文 参考訳(メタデータ) (2023-12-17T20:42:43Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - MGAS: Multi-Granularity Architecture Search for Trade-Off Between Model
Effectiveness and Efficiency [10.641875933652647]
我々は,多粒度アーキテクチャサーチ(MGAS)を導入し,効率的かつ効率的なニューラルネットワークを探索する。
各粒度レベル固有の離散化関数を学習し、進化したアーキテクチャに従って単位残率を適応的に決定する。
CIFAR-10、CIFAR-100、ImageNetの大規模な実験により、MGASはモデル性能とモデルサイズとのトレードオフを改善するために、他の最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-23T16:32:18Z) - Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Non-Autoregressive Machine Translation: It's Not as Fast as it Seems [84.47091735503979]
NARモデルに関する文献にみられる評価手法の欠陥を指摘する。
我々はNARモデルと他の広く使われている効率向上手法を比較した。
我々は,今後の作業において,より現実的で広範なNARモデルの評価を求める。
論文 参考訳(メタデータ) (2022-05-04T09:30:17Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z) - TextGNN: Improving Text Encoder via Graph Neural Network in Sponsored
Search [11.203006652211075]
本稿では,ユーザの履歴行動から補完するグラフ情報を用いて,強いツインタワー構造エンコーダを自然に拡張するtextgnnモデルを提案する。
オフライン実験では、ロングテール低周波広告の精度が1%向上し、ROC-AUC全体の0.14%の増加を達成する。
オンラインa/bテストでは、1ミルあたりの収益が2.03%増加し、広告欠陥率は2.32%減少した。
論文 参考訳(メタデータ) (2021-01-15T23:12:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。