論文の概要: Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control
- arxiv url: http://arxiv.org/abs/2402.17535v1
- Date: Tue, 27 Feb 2024 14:21:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 15:53:00.983260
- Title: Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control
- Title(参考訳): 確率的拡張制御を用いたマルチモーダル学習スパース検索
- Authors: Thong Nguyen, Mariya Hendriksen, Andrew Yates, Maarten de Rijke
- Abstract要約: 学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
- 参考スコア(独自算出の注目度): 66.78146440275093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learned sparse retrieval (LSR) is a family of neural methods that encode
queries and documents into sparse lexical vectors that can be indexed and
retrieved efficiently with an inverted index. We explore the application of LSR
to the multi-modal domain, with a focus on text-image retrieval. While LSR has
seen success in text retrieval, its application in multimodal retrieval remains
underexplored. Current approaches like LexLIP and STAIR require complex
multi-step training on massive datasets. Our proposed approach efficiently
transforms dense vectors from a frozen dense model into sparse lexical vectors.
We address issues of high dimension co-activation and semantic deviation
through a new training algorithm, using Bernoulli random variables to control
query expansion. Experiments with two dense models (BLIP, ALBEF) and two
datasets (MSCOCO, Flickr30k) show that our proposed algorithm effectively
reduces co-activation and semantic deviation. Our best-performing sparsified
model outperforms state-of-the-art text-image LSR models with a shorter
training time and lower GPU memory requirements. Our approach offers an
effective solution for training LSR retrieval models in multimodal settings.
Our code and model checkpoints are available at
github.com/thongnt99/lsr-multimodal
- Abstract(参考訳): learn sparse retrieval (lsr) は、クエリとドキュメントを、逆インデックスで効率的にインデックス化および検索できるスパース語彙ベクトルにエンコードする、ニューラルネットワークのファミリである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LSRはテキスト検索に成功しているが、マルチモーダル検索への応用はいまだに未検討である。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
我々はBernolliランダム変数を用いてクエリ拡張を制御する新しいトレーニングアルゴリズムにより,高次元のコアクティベーションとセマンティック偏差の問題に対処する。
2つの高密度モデル (BLIP, ALBEF) と2つのデータセット (MSCOCO, Flickr30k) を用いた実験により, 提案アルゴリズムはコアクティベーションとセマンティック偏差を効果的に低減することを示した。
我々の最高のパフォーマンスのスパーシフィケードモデルは、トレーニング時間が短く、GPUメモリの要求が低い最先端のテキストイメージLSRモデルよりも優れています。
提案手法は,マルチモーダル環境下でのLSR検索モデルの学習に有効なソリューションを提供する。
コードとモデルチェックポイントはgithub.com/thongnt99/lsr-multimodalで利用可能です。
関連論文リスト
- Retrieval with Learned Similarities [2.729516456192901]
最先端の検索アルゴリズムは、学習された類似点に移行した。
そこで本研究では,Mixture-of-Logits (MoL) を実証的に実現し,多様な検索シナリオにおいて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-07-22T08:19:34Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Abstractive Summarization as Augmentation for Document-Level Event
Detection [0.0]
文書レベルのイベント検出における浅層モデルと深層モデルのパフォーマンスギャップを,抽象的なテキスト要約を拡張手法として用いて橋渡しする。
テキスト生成には、ビームサーチ、トップkサンプリング、トップpサンプリング、コントラスト検索の4つの復号法を用いる。
以上の結果から,文書タイトルを使用すると,線形SVMとRoBERTaのマクロF1スコアが2.04%,3.19%向上することがわかった。
論文 参考訳(メタデータ) (2023-05-29T11:28:26Z) - Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation [7.056222499095849]
ビームサーチは 予測分布を用いて 最大限の確率で 書き起こしを求める
最近提案された自己監督学習(SSL)ベースのASRモデルは、極めて確実な予測をもたらす傾向があることを示す。
細調整されたASRモデルの性能を向上させる復号法を提案する。
論文 参考訳(メタデータ) (2022-12-27T06:42:26Z) - CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for
Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。
これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。
動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文 参考訳(メタデータ) (2022-11-18T18:27:35Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z) - Memory-Based Optimization Methods for Model-Agnostic Meta-Learning and
Personalized Federated Learning [56.17603785248675]
モデルに依存しないメタラーニング (MAML) が人気のある研究分野となっている。
既存のMAMLアルゴリズムは、イテレーション毎にメタモデルを更新するためにいくつかのタスクとデータポイントをサンプリングすることで、エピソードのアイデアに依存している。
本稿では,MAMLのメモリベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-09T08:47:58Z) - Lightweight Image Super-Resolution with Hierarchical and Differentiable
Neural Architecture Search [38.83764580480486]
単一画像スーパーリゾリューション(SISR)タスクは、ディープニューラルネットワークで大きなパフォーマンスを達成しました。
本稿では, セルレベルとネットワークレベルの両方に対して, 軽量SISRモデル検索のための新しい微分可能なニューラルアーキテクチャ探索手法を提案する。
論文 参考訳(メタデータ) (2021-05-09T13:30:16Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。