論文の概要: Retrieving Texts based on Abstract Descriptions
- arxiv url: http://arxiv.org/abs/2305.12517v1
- Date: Sun, 21 May 2023 17:14:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 19:53:58.568656
- Title: Retrieving Texts based on Abstract Descriptions
- Title(参考訳): 要約記述に基づくテキストの検索
- Authors: Shauli Ravfogel, Valentina Pyatkin, Amir DN Cohen, Avshalom Manevich,
Yoav Goldberg
- Abstract要約: 我々は,2つの研究領域 – 命令モデルと検索モデル – を接続することを目指している。
埋め込みベクトル上の類似性検索は、ベクトルをインデックス化し、クエリすることができるが、埋め込みに反映される類似性は多くのユースケースで準最適である。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
- 参考スコア(独自算出の注目度): 44.81159054542045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we aim to connect two research areas: instruction models and
retrieval-based models. While instruction-tuned Large Language Models (LLMs)
excel at extracting information from text, they are not suitable for semantic
retrieval. Similarity search over embedding vectors allows to index and query
vectors, but the similarity reflected in the embedding is sub-optimal for many
use cases. We identify the task of retrieving sentences based on abstract
descriptions of their content. We demonstrate the inadequacy of current text
embeddings and propose an alternative model that significantly improves when
used in standard nearest neighbor search. The model is trained using positive
and negative pairs sourced through prompting an a large language model (LLM).
While it is easy to source the training material from an LLM, the retrieval
task cannot be performed by the LLM directly. This demonstrates that data from
LLMs can be used not only for distilling more efficient specialized models than
the original LLM, but also for creating new capabilities not immediately
possible using the original model.
- Abstract(参考訳): 本研究では,命令モデルと検索モデルという2つの研究領域を接続することを目的とする。
命令調整型大規模言語モデル(LLM)はテキストから情報を抽出するのに優れているが、意味検索には適していない。
埋め込みベクター上の類似性検索はインデックスとクエリベクターを可能にするが、埋め込みに反映される類似性は多くのユースケースで副最適である。
内容の抽象的な記述に基づいて文章検索のタスクを識別する。
本稿では,現在のテキスト埋め込みの不適切さを実証し,近隣の標準的な検索で使用する場合の精度を向上する代替モデルを提案する。
モデルは、大きな言語モデル(LLM)を促すことによって、正と負のペアをソースとしてトレーニングされる。
LLMからトレーニング材料を引き出すのは容易であるが、LLMから直接は検索タスクを実行できない。
このことは、LLMのデータは、元のLLMよりも効率的な特殊モデルを蒸留するためにだけでなく、元のモデルではすぐには不可能な新しい機能を作成するためにも利用できることを示している。
関連論文リスト
- QAEA-DR: A Unified Text Augmentation Framework for Dense Retrieval [12.225881591629815]
厳密な検索では、長いテキストを密度の高いベクトルに埋め込むと、情報が失われ、クエリとテキストのマッチングが不正確になる。
近年の研究では,文の埋め込みモデルや検索プロセスの改善を中心に研究が進められている。
本稿では,高密度検索のための新しいテキスト拡張フレームワークを導入し,生文書を高密度テキスト形式に変換する。
論文 参考訳(メタデータ) (2024-07-29T17:39:08Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval [31.79030663958162]
本稿では,テキスト埋め込みを柔軟で回復力のあるセマンティックレンジで強化するテキストモデリング手法T-MASSを提案する。
具体的には,テキスト・ビデオ・ペアにテキスト・マスのスケールを適応させるために,類似性を考慮した半径モジュールを導入する。
T-MASSは5つのベンチマークデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - An Intelligent CNN-VAE Text Representation Technology Based on Text
Semantics for Comprehensive Big Data [15.680918844684454]
畳み込みニューラルネットワーク(CNN)と可変オートエンコーダ(VAE)に基づくテキスト特徴表現モデルを提案する。
提案手法は,k-nearest neighbor (KNN), random forest (RF) および Support vector machine (SVM) 分類アルゴリズムにおいて優れる。
論文 参考訳(メタデータ) (2020-08-28T07:39:45Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - Comparative Analysis of N-gram Text Representation on Igbo Text Document
Similarity [0.0]
情報技術の進歩は、オンラインのリソースやニュース記事などのテキスト作成において、Igboの使用を奨励している。
ユークリッド類似度尺度を用いて、2つの単語ベースのn-gramテキスト表現(ユニグラムとビッグラム)モデルで表されるIgboテキスト文書間の類似度を決定する。
論文 参考訳(メタデータ) (2020-04-01T12:24:47Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。