論文の概要: Unsupervised Text Representation Learning via Instruction-Tuning for Zero-Shot Dense Retrieval
- arxiv url: http://arxiv.org/abs/2409.16497v1
- Date: Tue, 24 Sep 2024 23:03:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 08:11:05.667183
- Title: Unsupervised Text Representation Learning via Instruction-Tuning for Zero-Shot Dense Retrieval
- Title(参考訳): ゼロショットディエンス検索のためのインストラクションチューニングによる教師なしテキスト表現学習
- Authors: Qiuhai Zeng, Zimeng Qiu, Dae Yon Hwang, Xin He, William M. Campbell,
- Abstract要約: 命令チューニングによる教師なしテキスト表現学習手法を提案する。
関連する合成クエリの表現によってコーパス表現を拡張できることを実証する。
我々は,全指標の平均ゼロショット検索性能を著しく改善した。
- 参考スコア(独自算出の注目度): 19.422003299376
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Dense retrieval systems are commonly used for information retrieval (IR). They rely on learning text representations through an encoder and usually require supervised modeling via labelled data which can be costly to obtain or simply unavailable. In this study, we introduce a novel unsupervised text representation learning technique via instruction-tuning the pre-trained encoder-decoder large language models (LLM) under the dual-encoder retrieval framework. We demonstrate the corpus representation can be augmented by the representations of relevant synthetic queries generated by the instruct-tuned LLM founded on the Rao-Blackwell theorem. Furthermore, we effectively align the query and corpus text representation with self-instructed-tuning. Specifically, we first prompt an open-box pre-trained LLM to follow defined instructions (i.e. question generation and keyword summarization) to generate synthetic queries. Next, we fine-tune the pre-trained LLM with defined instructions and the generated queries that passed quality check. Finally, we generate synthetic queries with the instruction-tuned LLM for each corpora and represent each corpora by weighted averaging the synthetic queries and original corpora embeddings. We evaluate our proposed method under low-resource settings on three English and one German retrieval datasets measuring NDCG@10, MRR@100, Recall@100. We significantly improve the average zero-shot retrieval performance on all metrics, increasing open-box FLAN-T5 model variations by [3.34%, 3.50%] in absolute and exceeding three competitive dense retrievers (i.e. mDPR, T-Systems, mBART-Large), with model of size at least 38% smaller, by 1.96%, 4.62%, 9.52% absolute on NDCG@10.
- Abstract(参考訳): デンス検索システムは情報検索(IR)に一般的に用いられている。
エンコーダを通じてテキスト表現を学習することに依存しており、通常はラベル付きデータによる教師付きモデリングを必要とする。
本研究では,プリトレーニング済みエンコーダ-デコーダ大言語モデル (LLM) を,デュアルエンコーダ検索フレームワークを用いて命令調整することで,教師なしのテキスト表現学習手法を提案する。
コーパス表現は、ラオ・ブラックウェルの定理に基づくインストラクトチューニング LLM によって生成される関連する合成クエリの表現によって拡張可能であることを示す。
さらに、クエリとコーパスのテキスト表現を自己指示型チューニングで効果的に調整する。
具体的には、まずオープンボックスで事前学習したLCMに対して、定義した命令(質問生成とキーワード要約)に従って合成クエリを生成する。
次に、事前学習したLLMに、定義した命令と品質チェックをパスした生成されたクエリを微調整する。
最後に、各コーパスに対する命令調整LDMによる合成クエリを生成し、合成クエリと元のコーパス埋め込みを平均化する重み付けにより、各コーパスを表現する。
提案手法は,NDCG@10,MRR@100,Recall@100,NDCG@10,MRR@100,Recall@100,NDCG@10,NDCG@10,NDCG@10,MRR@100,Recall@100,ND CG@100,NDCG@100,NDCG@100,NDCG@100,NDCG@100,NDCG@100,NDCG@100,NDCG@100,Recall@100,Recall@100の3つの検索データセットを用いて低リソース設定で評価した。
NDCG@10では,FLAN-T5モデルの絶対値が[3.34%,350%]増加し,3つの高密度検索器(mDPR,T-Systems,mBART-Large)を超え,少なくとも38%小さめのモデルが1.96%,4.62%,9.52%小さかった。
関連論文リスト
- PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Revisiting Large Language Models as Zero-shot Relation Extractors [8.953462875381888]
リレーショナル抽出(RE)は、ゼロショット設定下であっても、一定のラベル付きまたはラベルなしのデータを一貫して含む。
近年の研究では、大きな言語モデル(LLM)が、単に自然言語のプロンプトを与えられただけで、新しいタスクにうまく移行していることが示されている。
本研究はゼロショット関係抽出器としてLLMを探索することに焦点を当てる。
論文 参考訳(メタデータ) (2023-10-08T06:17:39Z) - ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation [43.270424225285105]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。
ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文 参考訳(メタデータ) (2023-08-22T02:25:04Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Language Models Enable Simple Systems for Generating Structured Views of
Heterogeneous Data Lakes [15.214583657626697]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。
コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。
直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文 参考訳(メタデータ) (2023-04-19T06:00:26Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。