Fugu-MT 論文翻訳(概要): Optimizing Retrieval-augmented Reader Models via Token Elimination

論文の概要: Optimizing Retrieval-augmented Reader Models via Token Elimination

arxiv url: http://arxiv.org/abs/2310.13682v2
Date: Sun, 5 Nov 2023 06:31:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 20:15:12.329823
Title: Optimizing Retrieval-augmented Reader Models via Token Elimination
Title（参考訳）: トークン除去による検索型読み出しモデルの最適化
Authors: Moshe Berchansky, Peter Izsak, Avi Caciularu, Ido Dagan, Moshe Wasserblat
Abstract要約: 我々は,検索した全てのパスが読者モデルの性能に与える影響と必要性を分析した。提案手法は,実行時間を最大62.2%削減でき,性能は2%しか低下せず,場合によっては性能も向上することを示した。
参考スコア（独自算出の注目度）: 30.53636918279251
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fusion-in-Decoder (FiD) is an effective retrieval-augmented language model applied across a variety of open-domain tasks, such as question answering, fact checking, etc. In FiD, supporting passages are first retrieved and then processed using a generative model (Reader), which can cause a significant bottleneck in decoding time, particularly with long outputs. In this work, we analyze the contribution and necessity of all the retrieved passages to the performance of reader models, and propose eliminating some of the retrieved information, at the token level, that might not contribute essential information to the answer generation process. We demonstrate that our method can reduce run-time by up to 62.2%, with only a 2% reduction in performance, and in some cases, even improve the performance results.
Abstract（参考訳）: Fusion-in-Decoder (FiD) は、質問応答や事実チェックなど、様々なオープンドメインタスクに適用される効果的な検索強化言語モデルである。 FiDでは、サポートパスが最初に検索され、生成モデル(Reader)を使用して処理される。本研究では,検索した全てのパスが読者モデルの性能に寄与するかどうかを解析し,トークンレベルでは,回答生成プロセスに不可欠な情報を提供しないような,検索した情報のいくつかを除去することを提案する。提案手法では,実行時間を最大62.2%削減できるが,性能は2%程度に抑えられ,場合によっては性能が向上する場合もある。

関連論文リスト

Static Pruning in Dense Retrieval using Matrix Decomposition [12.899105656025018]
密集検索の時代には、文書のインデックス化と検索は主に、文書を埋め込みに変換するエンコーディングモデルに基づいている。近年の研究では, 組込みサイズを減らし, 回収効率を向上できる可能性が示唆されている。そこで本研究では,主成分分析による埋込み寸法の低減のための新しい静的プルーニング手法を提案する。
論文参考訳（メタデータ） (2024-12-13T09:09:20Z)
Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文参考訳（メタデータ） (2024-11-12T13:14:09Z)
Think-then-Act: A Dual-Angle Evaluated Retrieval-Augmented Generation [3.2134014920850364]
大型言語モデル(LLM)は時相の誤りや幻覚的内容の生成といった課題に直面していることが多い。二重角評価による検索拡張生成フレームワーク textitThink-then-Act を提案する。
論文参考訳（メタデータ） (2024-06-18T20:51:34Z)
CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling [52.404072802235234]
本稿では,下流タスクに有用な注目度を隠蔽状態の消去プロセスに統合する新しいモデリング手法であるChunked Instruction-Aware State Eviction(CItruS)を紹介する。トレーニング不要な手法は,メモリ予算が同じ条件下で,複数の強いベースライン上での長いシーケンス理解および検索タスクにおいて,優れた性能を示す。
論文参考訳（メタデータ） (2024-06-17T18:34:58Z)
Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection [28.15184715270483]
大きな言語モデル (LLM) は、検索によって強化され、堅牢な性能と広範な汎用性を示す。本稿では,スパースRAGという新しいパラダイムを提案する。 Sparse RAGは、検索したドキュメントを並列にエンコードする。
論文参考訳（メタデータ） (2024-05-25T11:10:04Z)
List-aware Reranking-Truncation Joint Model for Search and Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。 GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文参考訳（メタデータ） (2024-02-05T06:52:53Z)
Jaeger: A Concatenation-Based Multi-Transformer VQA Model [0.13654846342364307]
文書に基づく視覚質問応答は,言語感覚の曖昧さと細粒度マルチモーダル検索の間に難しい課題を生じさせる。本稿では,結合型マルチトランスVQAモデルであるJaegarを提案する。我々のアプローチは、結合によってこれらのモデルの性能を増幅する可能性がある。
論文参考訳（メタデータ） (2023-10-11T00:14:40Z)
Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文参考訳（メタデータ） (2023-10-02T18:52:35Z)
How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文参考訳（メタデータ） (2023-05-19T17:33:38Z)
Tokenization Consistency Matters for Generative Models on Extractive NLP Tasks [54.306234256074255]
生成モデルの訓練において一般的に無視されるトークン化の不整合の問題を特定する。この問題は、入力と出力が無矛盾にトークン化されると、これらのタスクの抽出特性を損なう。一貫性のあるトークン化では、ドメイン内のデータセットとドメイン外のデータセットの両方で、モデルのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2022-12-19T23:33:21Z)
Autoregressive Search Engines: Generating Substrings as Document Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文参考訳（メタデータ） (2022-04-22T10:45:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。