論文の概要: Isotropic Representation Can Improve Dense Retrieval
- arxiv url: http://arxiv.org/abs/2209.00218v1
- Date: Thu, 1 Sep 2022 04:29:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:43:47.094355
- Title: Isotropic Representation Can Improve Dense Retrieval
- Title(参考訳): 等方性表現は高密度検索を改善する
- Authors: Euna Jung, Jungwon Park, Jaekeol Choi, Sungyoon Kim, Wonjong Rhee
- Abstract要約: 高パフォーマンス密度検索モデルはBERTを用いてクエリとドキュメントの表現を評価する。
BERT表現は狭い円錐形の異方性分布に従うことが知られている。
本研究では,等方性表現が全般的に向上することを示す。
- 参考スコア(独自算出の注目度): 5.6435410094272696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advancement in language representation modeling has broadly
affected the design of dense retrieval models. In particular, many of the
high-performing dense retrieval models evaluate representations of query and
document using BERT, and subsequently apply a cosine-similarity based scoring
to determine the relevance. BERT representations, however, are known to follow
an anisotropic distribution of a narrow cone shape and such an anisotropic
distribution can be undesirable for the cosine-similarity based scoring. In
this work, we first show that BERT-based DR also follows an anisotropic
distribution. To cope with the problem, we introduce unsupervised
post-processing methods of Normalizing Flow and whitening, and develop
token-wise method in addition to the sequence-wise method for applying the
post-processing methods to the representations of dense retrieval models. We
show that the proposed methods can effectively enhance the representations to
be isotropic, then we perform experiments with ColBERT and RepBERT to show that
the performance (NDCG at 10) of document re-ranking can be improved by
5.17\%$\sim$8.09\% for ColBERT and 6.88\%$\sim$22.81\% for RepBERT. To examine
the potential of isotropic representation for improving the robustness of DR
models, we investigate out-of-distribution tasks where the test dataset differs
from the training dataset. The results show that isotropic representation can
achieve a generally improved performance. For instance, when training dataset
is MS-MARCO and test dataset is Robust04, isotropy post-processing can improve
the baseline performance by up to 24.98\%. Furthermore, we show that an
isotropic model trained with an out-of-distribution dataset can even outperform
a baseline model trained with the in-distribution dataset.
- Abstract(参考訳): 近年の言語表現モデリングの進歩は,高密度検索モデルの設計に大きな影響を与えている。
特に、高パフォーマンスな高密度検索モデルの多くはBERTを用いてクエリと文書の表現を評価し、コサイン類似度に基づくスコアを適用して関連性を決定する。
しかし、BERT表現は狭い円錐形状の異方性分布に従うことが知られており、このような異方性分布はコサイン類似性に基づくスコアリングでは望ましくない。
本研究では,BERTに基づくDRも異方性分布に従うことを示す。
この問題に対処するために,フローの正規化と白化の教師なし後処理手法を導入し,高密度検索モデルの表現に後処理手法を適用するシーケンシャルワイズ法に加えてトークンワイズ法を開発した。
提案手法は、等方性を示す表現を効果的に強化し、文書の再ランク付けにおける性能(NDCG at 10)をColBERTに対して5.17\%$\sim$8.09\%、RepBERTに対して6.88\%$\sim$22.81\%向上できることを示す。
DRモデルのロバスト性向上のための等方性表現の可能性を検討するために,テストデータセットがトレーニングデータセットと異なる分布外タスクを検討する。
その結果、等方性表現は一般に性能が向上することが示された。
例えば、トレーニングデータセットがms-marcoでテストデータセットがロバスト04である場合、等方性後処理によってベースラインのパフォーマンスが最大24.98\%向上する。
さらに,分布外データセットでトレーニングした等方性モデルは,分布内データセットでトレーニングしたベースラインモデルよりも優れていることを示す。
関連論文リスト
- Image Deblurring with Domain Generalizable Diffusion Models [14.463214400904306]
拡散確率モデル (DPM) は画像の劣化に用いられている。
ICDPMは合成一対のトレーニングデータ(ドメイン内)に依存しており、現実世界の見えない画像に対して、潜在的に不明確なロバスト性を持つ。
本稿では,アーティファクトを大幅に緩和し,アウト・オブ・ディストリビューション性能を向上させるための,シンプルだが効果的なガイダンスを提案する。
論文 参考訳(メタデータ) (2022-12-04T10:40:35Z) - Dataset Distillation via Factorization [58.8114016318593]
既存のデータセット蒸留(DD)ベースラインに移植可能なプラグ・アンド・プレイ戦略であるEmphHaBaと呼ばれるEmphdataset Factorizationアプローチを導入する。
emphHaBaは、データセットをデータemphHallucinationネットワークとemphBaseの2つのコンポーネントに分解する方法を探っている。
提案手法は, 圧縮パラメータの総数を最大65%削減しつつ, 下流の分類タスクを従来に比べて大幅に改善することができる。
論文 参考訳(メタデータ) (2022-10-30T08:36:19Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Adaptive Graph-Based Feature Normalization for Facial Expression
Recognition [1.2246649738388389]
データ不確実性から表情認識モデルを保護するために,適応グラフに基づく特徴正規化(AGFN)手法を提案する。
我々の手法は、ベンチマークデータセットで91.84%、91.11%の精度で最先端の作業より優れています。
論文 参考訳(メタデータ) (2022-07-22T14:57:56Z) - Learning by Erasing: Conditional Entropy based Transferable
Out-Of-Distribution Detection [22.228360231499053]
トレーニングとテストシナリオ間の分散シフトを処理するためには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。
既存の方法は、データセット固有の特徴表現やデータ分散をキャプチャするために、再トレーニングを必要とする。
我々は,新しいIDデータセットで再トレーニングする必要がない,DGMに基づく転送可能なOOD検出手法を提案する。
論文 参考訳(メタデータ) (2022-04-23T10:19:58Z) - Flexible Amortized Variational Inference in qBOLD MRI [56.4324135502282]
データから酸素抽出率(OEF)と脱酸素血液量(DBV)をより明瞭に決定する。
既存の推論手法では、DBVを過大評価しながら非常にノイズの多い、過小評価されたEFマップが得られる傾向にある。
本研究は, OEFとDBVの可算分布を推定できる確率論的機械学習手法について述べる。
論文 参考訳(メタデータ) (2022-03-11T10:47:16Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。
提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。
いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-12-15T01:45:32Z) - The deep generative decoder: Using MAP estimates of representations [0.0]
深層生成モデルは、表現空間とその分布と、その表現を特徴空間内のベクトル上の分布にマッピングするニューラルネットワークによって特徴づけられる。
変分オートエンコーダ(VAE)のような一般的な手法は、ニューラルネットワークのトレーニングに変分推論を適用するが、これらのモデルを最適化することは、しばしば簡単ではない。
バックプロパゲーションによりモデル確率を最大化することにより、表現とその分布を求めるより単純な近似について検討する。
CIFAR10データセットを用いて、DGDはVAEよりも簡単かつ高速に最適化でき、テストデータのより一貫した低再構成誤差を達成できることを示す。
論文 参考訳(メタデータ) (2021-10-13T12:17:46Z) - Score-based diffusion models for accelerated MRI [35.3148116010546]
本研究では,画像中の逆問題を容易に解けるような条件分布からデータをサンプリングする方法を提案する。
我々のモデルは、訓練のためにのみ等級画像を必要とするが、複雑な値のデータを再構成することができ、さらに並列画像まで拡張できる。
論文 参考訳(メタデータ) (2021-10-08T08:42:03Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。