論文の概要: Towards Consistency Filtering-Free Unsupervised Learning for Dense
Retrieval
- arxiv url: http://arxiv.org/abs/2308.02926v1
- Date: Sat, 5 Aug 2023 17:33:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 17:50:09.183057
- Title: Towards Consistency Filtering-Free Unsupervised Learning for Dense
Retrieval
- Title(参考訳): 密検索のための一貫性フィルタリングフリー教師なし学習に向けて
- Authors: Haoxiang Shi, Sumio Fujita and Tetsuya Sakai
- Abstract要約: ドメイン転送は、現代のニューラル情報検索(IR)における一般的な課題である
本研究では、一貫性フィルタを、直接擬似ラベル付け、擬似関連フィードバック、教師なしキーワード生成手法に置き換えることにより、より効率的な解を評価する。
- 参考スコア(独自算出の注目度): 28.959643428359705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain transfer is a prevalent challenge in modern neural Information
Retrieval (IR). To overcome this problem, previous research has utilized
domain-specific manual annotations and synthetic data produced by consistency
filtering to finetune a general ranker and produce a domain-specific ranker.
However, training such consistency filters are computationally expensive, which
significantly reduces the model efficiency. In addition, consistency filtering
often struggles to identify retrieval intentions and recognize query and corpus
distributions in a target domain. In this study, we evaluate a more efficient
solution: replacing the consistency filter with either direct pseudo-labeling,
pseudo-relevance feedback, or unsupervised keyword generation methods for
achieving consistent filtering-free unsupervised dense retrieval. Our extensive
experimental evaluations demonstrate that, on average, TextRank-based pseudo
relevance feedback outperforms other methods. Furthermore, we analyzed the
training and inference efficiency of the proposed paradigm. The results
indicate that filtering-free unsupervised learning can continuously improve
training and inference efficiency while maintaining retrieval performance. In
some cases, it can even improve performance based on particular datasets.
- Abstract(参考訳): ドメイン転送は、現代の神経情報検索(IR)において一般的な課題である。
この問題を解決するために、従来の研究では、整合フィルタリングによって生成されたドメイン固有の手動アノテーションと合成データを用いて、一般的なランク付けを微調整し、ドメイン固有のランク付けを生成する。
しかし、そのような整合性フィルタのトレーニングは計算コストが高く、モデル効率を大幅に低下させる。
さらに、一貫性フィルタリングは、しばしば検索意図を特定し、ターゲットドメイン内のクエリとコーパス分布を認識するのに苦労する。
本研究では,一貫性フィルタを直接擬似ラベル法,疑似関係フィードバック法,非教師付きキーワード生成法のいずれかに置き換え,一貫性のない教師なし密検索を実現する。
実験により,TextRankをベースとした擬似関連フィードバックが他の手法よりも優れていることを示す。
さらに,提案手法の学習効率と推論効率について検討した。
その結果,フィルタリングフリーな教師なし学習は,検索性能を維持しつつ,訓練や推論の効率を継続的に改善できることがわかった。
場合によっては、特定のデータセットに基づいてパフォーマンスを改善することもできる。
関連論文リスト
- Understanding and Scaling Collaborative Filtering Optimization from the Perspective of Matrix Rank [48.02330727538905]
協調フィルタリング(CF)手法は現実世界のレコメンデーションシステムを支配している。
本研究では,異なる学習戦略下での埋め込みテーブルの特性について検討する。
ユーザの安定なランクとアイテムの埋め込みを規則化する,効率的なウォームスタート戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T21:54:13Z) - From Data Deluge to Data Curation: A Filtering-WoRA Paradigm for Efficient Text-based Person Search [19.070305201045954]
テキストベースの人物検索では、プライバシ保護と手動アノテーションの困難なタスクに対する懸念に対処するため、データ生成が主流となっている。
構築されたデータセット内のデータのサブセットのみが決定的な役割を果たすことを観察する。
我々は、この重要なデータサブセットを識別するためのフィルタリングアルゴリズムと、光微細チューニングのためのWoRA学習戦略を含む新しいフィルタリング-WoRAパラダイムを導入する。
論文 参考訳(メタデータ) (2024-04-16T05:29:14Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Adversarial contamination of networks in the setting of vertex
nomination: a new trimming method [5.915837770869619]
スペクトルグラフの埋め込みは、アルゴリズムの性能とフレキシブルな設定を提供する。
ブロック構造汚染とホワイトノイズ汚染の両方に対処できるモデル空間で動作する新しいトリミング法を提案する。
このモデルトリミングは理論解析に適しており、多くのシミュレーションにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2022-08-20T15:32:04Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z) - Dependency Aware Filter Pruning [74.69495455411987]
重要でないフィルタを割ることは、推論コストを軽減するための効率的な方法である。
以前の作業は、その重み基準やそれに対応するバッチノームスケーリング要因に従ってフィルタをプルークする。
所望の空間性を達成するために,空間性誘導正規化を動的に制御する機構を提案する。
論文 参考訳(メタデータ) (2020-05-06T07:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。