論文の概要: Description-Based Text Similarity
- arxiv url: http://arxiv.org/abs/2305.12517v5
- Date: Wed, 24 Jul 2024 15:10:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 19:59:51.038334
- Title: Description-Based Text Similarity
- Title(参考訳): 記述に基づくテキストの類似性
- Authors: Shauli Ravfogel, Valentina Pyatkin, Amir DN Cohen, Avshalom Manevich, Yoav Goldberg,
- Abstract要約: 我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
- 参考スコア(独自算出の注目度): 59.552704474862004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying texts with a given semantics is central for many information seeking scenarios. Similarity search over vector embeddings appear to be central to this ability, yet the similarity reflected in current text embeddings is corpus-driven, and is inconsistent and sub-optimal for many use cases. What, then, is a good notion of similarity for effective retrieval of text? We identify the need to search for texts based on abstract descriptions of their content, and the corresponding notion of \emph{description based similarity}. We demonstrate the inadequacy of current text embeddings and propose an alternative model that significantly improves when used in standard nearest neighbor search. The model is trained using positive and negative pairs sourced through prompting a LLM, demonstrating how data from LLMs can be used for creating new capabilities not immediately possible using the original model.
- Abstract(参考訳): 与えられたセマンティクスでテキストを識別することは、多くの情報検索シナリオの中心である。
ベクトル埋め込みに対する類似性探索は、この能力の中心にあるように見えるが、現在のテキスト埋め込みに反映される類似性はコーパス駆動であり、多くのユースケースでは矛盾し、準最適である。
では、テキストを効果的に検索する上で、類似性のよい概念は何だろうか?
我々は,その内容の抽象的な記述とそれに対応する「emph{description based similarity}」の概念に基づいて,テキストの検索の必要性を特定する。
本稿では,現在のテキスト埋め込みの不適切さを実証し,近隣の標準的な検索で使用する場合の精度を向上する代替モデルを提案する。
モデルはLLMのプロンプトを通じて、正と負のペアを使ってトレーニングされ、LLMからのデータを使って、元のモデルではすぐには不可能な新しい機能を作成する方法を示している。
関連論文リスト
- QAEA-DR: A Unified Text Augmentation Framework for Dense Retrieval [12.225881591629815]
厳密な検索では、長いテキストを密度の高いベクトルに埋め込むと、情報が失われ、クエリとテキストのマッチングが不正確になる。
近年の研究では,文の埋め込みモデルや検索プロセスの改善を中心に研究が進められている。
本稿では,高密度検索のための新しいテキスト拡張フレームワークを導入し,生文書を高密度テキスト形式に変換する。
論文 参考訳(メタデータ) (2024-07-29T17:39:08Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval [31.79030663958162]
本稿では,テキスト埋め込みを柔軟で回復力のあるセマンティックレンジで強化するテキストモデリング手法T-MASSを提案する。
具体的には,テキスト・ビデオ・ペアにテキスト・マスのスケールを適応させるために,類似性を考慮した半径モジュールを導入する。
T-MASSは5つのベンチマークデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - An Intelligent CNN-VAE Text Representation Technology Based on Text
Semantics for Comprehensive Big Data [15.680918844684454]
畳み込みニューラルネットワーク(CNN)と可変オートエンコーダ(VAE)に基づくテキスト特徴表現モデルを提案する。
提案手法は,k-nearest neighbor (KNN), random forest (RF) および Support vector machine (SVM) 分類アルゴリズムにおいて優れる。
論文 参考訳(メタデータ) (2020-08-28T07:39:45Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - Comparative Analysis of N-gram Text Representation on Igbo Text Document
Similarity [0.0]
情報技術の進歩は、オンラインのリソースやニュース記事などのテキスト作成において、Igboの使用を奨励している。
ユークリッド類似度尺度を用いて、2つの単語ベースのn-gramテキスト表現(ユニグラムとビッグラム)モデルで表されるIgboテキスト文書間の類似度を決定する。
論文 参考訳(メタデータ) (2020-04-01T12:24:47Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。