Fugu-MT 論文翻訳(概要): Retrieving Texts based on Abstract Descriptions

論文の概要: Retrieving Texts based on Abstract Descriptions

arxiv url: http://arxiv.org/abs/2305.12517v2
Date: Sun, 22 Oct 2023 17:38:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 12:13:30.111580
Title: Retrieving Texts based on Abstract Descriptions
Title（参考訳）: 要約記述に基づくテキストの検索
Authors: Shauli Ravfogel, Valentina Pyatkin, Amir DN Cohen, Avshalom Manevich, Yoav Goldberg
Abstract要約: 埋め込みベクトル上の類似性検索は、クエリによる検索を可能にするが、埋め込みに反映される類似性は不定義であり、一貫性がない。我々は,その内容の抽象的記述に基づいて文を検索する,明確に定義された一貫したタスクを同定する。そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
参考スコア（独自算出の注目度）: 63.89087805237351
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While instruction-tuned Large Language Models (LLMs) excel at extracting information from text, they are not suitable for locating texts conforming to a given description in a large document collection (semantic retrieval). Similarity search over embedding vectors does allow to perform retrieval by query, but the similarity reflected in the embedding is ill-defined and non-consistent, and is sub-optimal for many use cases. What, then, is a good query representation for effective retrieval? We identify the well defined and consistent task of retrieving sentences based on abstract descriptions of their content. We demonstrate the inadequacy of current text embeddings and propose an alternative model that significantly improves when used in standard nearest neighbor search. The model is trained using positive and negative pairs sourced through prompting a LLM. While it is easy to source the training material from an LLM, the retrieval task cannot be performed by the LLM directly. This demonstrates that data from LLMs can be used not only for distilling more efficient specialized models than the original LLM, but also for creating new capabilities not immediately possible using the original model.
Abstract（参考訳）: 命令調整型大言語モデル(llm)はテキストから情報を抽出するのに優れているが、大文書収集(意味検索)において与えられた記述に準拠したテキストの特定には適していない。組込みベクトル上の類似性検索はクエリによる検索を可能にするが、組込みに反映される類似性は不定義で一貫性がなく、多くのユースケースで副最適である。では、効率的な検索のための良いクエリ表現は何か? 文章の内容の抽象的な記述に基づいて,文章の検索の明確かつ一貫したタスクを同定する。本稿では,現在のテキスト埋め込みの不適切さを実証し,近隣の標準的な検索で使用する場合の精度を向上する代替モデルを提案する。モデルはLDMのプロンプトを通じて、正と負のペアによって訓練される。 LLMからトレーニング材料を引き出すのは容易であるが、LLMから直接は検索タスクを実行できない。このことは、LLMのデータは、元のLLMよりも効率的な特殊モデルを蒸留するためにだけでなく、元のモデルではすぐには不可能な新しい機能を作成するためにも利用できることを示している。

関連論文リスト

Explainable identification of similarities between entities for discovery in large text [0.0]
本研究では,文書の自動比較と説明可能な類似性を明らかにするため,n-gram解析フレームワークを開発した。評価式を適用して各n-gramを重み付けし、n-gramが両方の文書でより頻度が高いときに重みを高くする。ワードクラウドのような可視化ツールは、これらのパターンの表現を強化し、より明確な洞察を提供する。
論文参考訳（メタデータ） (2025-03-22T01:20:43Z)
QAEA-DR: A Unified Text Augmentation Framework for Dense Retrieval [12.225881591629815]
厳密な検索では、長いテキストを密度の高いベクトルに埋め込むと、情報が失われ、クエリとテキストのマッチングが不正確になる。近年の研究では,文の埋め込みモデルや検索プロセスの改善を中心に研究が進められている。本稿では,高密度検索のための新しいテキスト拡張フレームワークを導入し,生文書を高密度テキスト形式に変換する。
論文参考訳（メタデータ） (2024-07-29T17:39:08Z)
Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文参考訳（メタデータ） (2024-07-26T07:30:41Z)
Test-time Contrastive Concepts for Open-world Semantic Segmentation [14.899741072838994]
最近のCLIP-like Vision-Language Models (VLM)は、大量の画像テキストペアで事前訓練され、オープン語彙セマンティックセマンティックセグメンテーションへの道を開いた。本稿では,クエリ固有のテキストコントラストの概念を自動生成する2つのアプローチを提案する。
論文参考訳（メタデータ） (2024-07-06T12:18:43Z)
A Text is Worth Several Tokens: Text Embedding from LLMs Secretly Aligns Well with The Key Tokens [20.37803751979975]
テキストを大きな言語モデルベースの埋め込み器に入力すると、得られたテキストの埋め込みは入力テキストのキートークンと一致させることができる。この現象は普遍的であり,モデルアーキテクチャ,トレーニング戦略,埋め込み手法の影響を受けないことを示す。
論文参考訳（メタデータ） (2024-06-25T08:55:12Z)
Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval [31.79030663958162]
本稿では,テキスト埋め込みを柔軟で回復力のあるセマンティックレンジで強化するテキストモデリング手法T-MASSを提案する。具体的には,テキスト・ビデオ・ペアにテキスト・マスのスケールを適応させるために,類似性を考慮した半径モジュールを導入する。 T-MASSは5つのベンチマークデータセットで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-03-26T17:59:52Z)
STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。 CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。 CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文参考訳（メタデータ） (2023-01-30T17:21:30Z)
Textual Entailment Recognition with Semantic Features from Empirical Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文参考訳（メタデータ） (2022-10-18T10:03:51Z)
Telling the What while Pointing the Where: Fine-grained Mouse Trace and Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文参考訳（メタデータ） (2021-02-09T17:54:34Z)
An Intelligent CNN-VAE Text Representation Technology Based on Text Semantics for Comprehensive Big Data [15.680918844684454]
畳み込みニューラルネットワーク(CNN)と可変オートエンコーダ(VAE)に基づくテキスト特徴表現モデルを提案する。提案手法は,k-nearest neighbor (KNN), random forest (RF) および Support vector machine (SVM) 分類アルゴリズムにおいて優れる。
論文参考訳（メタデータ） (2020-08-28T07:39:45Z)
Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。抽出した要約タスクを意味テキストマッチング問題として定式化する。我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文参考訳（メタデータ） (2020-04-19T08:27:57Z)
Comparative Analysis of N-gram Text Representation on Igbo Text Document Similarity [0.0]
情報技術の進歩は、オンラインのリソースやニュース記事などのテキスト作成において、Igboの使用を奨励している。ユークリッド類似度尺度を用いて、2つの単語ベースのn-gramテキスト表現(ユニグラムとビッグラム)モデルで表されるIgboテキスト文書間の類似度を決定する。
論文参考訳（メタデータ） (2020-04-01T12:24:47Z)
Learning to Select Bi-Aspect Information for Document-Scale Text Content Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文参考訳（メタデータ） (2020-02-24T12:52:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。