論文の概要: ListConRanker: A Contrastive Text Reranker with Listwise Encoding
- arxiv url: http://arxiv.org/abs/2501.07111v1
- Date: Mon, 13 Jan 2025 07:51:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:26:45.060752
- Title: ListConRanker: A Contrastive Text Reranker with Listwise Encoding
- Title(参考訳): ListConRanker:リスワイズエンコーディングを備えたコントラストテキストリランカ
- Authors: Junlong Liu, Yue Ma, Ruihui Zhao, Junhao Zheng, Qianli Ma, Yangyang Kang,
- Abstract要約: 本稿では,Listwise-encoded Contrastive text reRanker (ListConRanker)を提案する。
これは、エンコーディングプロセス中に他のパスと比較するのに役立ちます。
これは、中国語のMassive Text Embedding Benchmarkの再評価ベンチマークで、最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 27.017035527335402
- License:
- Abstract: Reranker models aim to re-rank the passages based on the semantics similarity between the given query and passages, which have recently received more attention due to the wide application of the Retrieval-Augmented Generation. Most previous methods apply pointwise encoding, meaning that it can only encode the context of the query for each passage input into the model. However, for the reranker model, given a query, the comparison results between passages are even more important, which is called listwise encoding. Besides, previous models are trained using the cross-entropy loss function, which leads to issues of unsmooth gradient changes during training and low training efficiency. To address these issues, we propose a novel Listwise-encoded Contrastive text reRanker (ListConRanker). It can help the passage to be compared with other passages during the encoding process, and enhance the contrastive information between positive examples and between positive and negative examples. At the same time, we use the circle loss to train the model to increase the flexibility of gradients and solve the problem of training efficiency. Experimental results show that ListConRanker achieves state-of-the-art performance on the reranking benchmark of Chinese Massive Text Embedding Benchmark, including the cMedQA1.0, cMedQA2.0, MMarcoReranking, and T2Reranking datasets.
- Abstract(参考訳): Rerankerモデルは,Retrieval-Augmented Generationの広範な適用により近年注目されている,与えられたクエリとパスのセマンティクスの類似性に基づいて,パスを再ランクすることを目的としている。
従来のほとんどのメソッドはポイントワイズエンコーディングを適用しており、すなわち、モデルに入力された各パスに対するクエリのコンテキストのみをエンコードできる。
しかし、リランカモデルでは、クエリが与えられた場合、パス間の比較結果はさらに重要となり、リストワイズエンコーディングと呼ばれる。
さらに、従来のモデルはクロスエントロピー損失関数を用いて訓練され、トレーニング中の非滑らかな勾配変化やトレーニング効率の低下が問題となる。
これらの問題に対処するため,Listwise-encoded Contrastive text reRanker (ListConRanker)を提案する。
エンコーディングプロセス中に他のパスと比較し、ポジティブな例とポジティブな例とネガティブな例の間のコントラスト的な情報を強化するのに役立つ。
同時に、円損失を用いてモデルの訓練を行い、勾配の柔軟性を高め、訓練効率の問題を解く。
実験結果から,ListConRankerは,cMedQA1.0,cMedQA2.0,MMarcoRe rank,T2Re rankingデータセットを含む,中国語Massive Text Embedding Benchmarkの再評価ベンチマークにおいて,最先端のパフォーマンスを達成していることがわかった。
関連論文リスト
- Gumbel Reranking: Differentiable End-to-End Reranker Optimization [61.16471123356738]
RAGシステムは関連する文書を識別するためにリランカーに依存している。
注釈付きクエリ-ドキュメントペアが不足しているため、これらのモデルの微調整は依然として難しい。
我々は,トレーニングと推論のギャップを最小限に抑えることを目的とした,リランカーのためのエンドツーエンドのトレーニングフレームワークであるGumbel Re rankを提案する。
論文 参考訳(メタデータ) (2025-02-16T13:23:39Z) - Leveraging Passage Embeddings for Efficient Listwise Reranking with Large Language Models [17.420756201557957]
本稿では, PE-Rankを提案する。
本稿では,これらの特別なトークンに復号空間を動的に制約し,復号処理を高速化する推論手法を提案する。
複数のベンチマークの結果、PE-Rankは、競合するランキング効率を維持しながら、プリフィルとデコードの両方の効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-06-21T03:33:51Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - Balancing Lexical and Semantic Quality in Abstractive Summarization [0.38073142980733]
本稿では,リランカが語彙的品質と意味的品質のバランスをとる新しいトレーニング手法を提案する。
CNN/DailyMail と XSum のデータセットを用いた実験では,語彙的側面を著しく劣化させることなく要約の意味を推定できることがわかった。
論文 参考訳(メタデータ) (2023-05-17T02:18:31Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Instance-Level Relative Saliency Ranking with Graph Reasoning [126.09138829920627]
そこで本研究では,有意な事例を分割し,相対的有意な有意なランク順序を推定するための統一モデルを提案する。
また、サラレンシーランキングブランチを効果的にトレーニングするために、新しい損失関数も提案されている。
実験の結果,提案手法は従来の手法よりも有効であることがわかった。
論文 参考訳(メタデータ) (2021-07-08T13:10:42Z) - Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence
Lip-Reading [96.48553941812366]
唇読解は唇運動系列から音声内容を推測することを目的としている。
seq2seqモデルの伝統的な学習プロセスには2つの問題がある。
本稿では,これら2つの問題に対処するために,PCPGに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T09:12:26Z) - Stacked DeBERT: All Attention in Incomplete Data for Text Classification [8.900866276512364]
変換器から双方向表現を重畳するスタックドデノナイズ(Stacked Denoising Bidirectional Representations)を提案する。
本モデルでは, 感情や意図の分類作業において, 音声テキスト誤りのあるツイートやテキストに現れる非公式/不正テキストにおいて, F1スコアが向上し, 堅牢性が向上したことを示す。
論文 参考訳(メタデータ) (2020-01-01T04:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。