Fugu-MT 論文翻訳(概要): Description-Based Text Similarity

論文の概要: Description-Based Text Similarity

arxiv url: http://arxiv.org/abs/2305.12517v5
Date: Wed, 24 Jul 2024 15:10:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-25 19:59:51.038334
Title: Description-Based Text Similarity
Title（参考訳）: 記述に基づくテキストの類似性
Authors: Shauli Ravfogel, Valentina Pyatkin, Amir DN Cohen, Avshalom Manevich, Yoav Goldberg,
Abstract要約: 我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
参考スコア（独自算出の注目度）: 59.552704474862004
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Identifying texts with a given semantics is central for many information seeking scenarios. Similarity search over vector embeddings appear to be central to this ability, yet the similarity reflected in current text embeddings is corpus-driven, and is inconsistent and sub-optimal for many use cases. What, then, is a good notion of similarity for effective retrieval of text? We identify the need to search for texts based on abstract descriptions of their content, and the corresponding notion of \emph{description based similarity}. We demonstrate the inadequacy of current text embeddings and propose an alternative model that significantly improves when used in standard nearest neighbor search. The model is trained using positive and negative pairs sourced through prompting a LLM, demonstrating how data from LLMs can be used for creating new capabilities not immediately possible using the original model.
Abstract（参考訳）: 与えられたセマンティクスでテキストを識別することは、多くの情報検索シナリオの中心である。ベクトル埋め込みに対する類似性探索は、この能力の中心にあるように見えるが、現在のテキスト埋め込みに反映される類似性はコーパス駆動であり、多くのユースケースでは矛盾し、準最適である。では、テキストを効果的に検索する上で、類似性のよい概念は何だろうか? 我々は,その内容の抽象的な記述とそれに対応する「emph{description based similarity}」の概念に基づいて,テキストの検索の必要性を特定する。本稿では,現在のテキスト埋め込みの不適切さを実証し,近隣の標準的な検索で使用する場合の精度を向上する代替モデルを提案する。モデルはLLMのプロンプトを通じて、正と負のペアを使ってトレーニングされ、LLMからのデータを使って、元のモデルではすぐには不可能な新しい機能を作成する方法を示している。

関連論文リスト

Evaluating the impact of word embeddings on similarity scoring in practical information retrieval [0.5872014229110214]
ベクトル空間モデリング(VSM)とニューラルワード埋め込みは、現代の機械学習と自然言語処理パイプラインにおいて重要な役割を果たす。本稿では,ニューラルワード埋め込みのセントロイドの共通類似度尺度から離れて,クエリ文の類似度を測定する方法を提案する。
論文参考訳（メタデータ） (2026-02-05T14:57:38Z)
RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文参考訳（メタデータ） (2025-08-18T17:59:15Z)
Explainable identification of similarities between entities for discovery in large text [0.0]
本研究では,文書の自動比較と説明可能な類似性を明らかにするため,n-gram解析フレームワークを開発した。評価式を適用して各n-gramを重み付けし、n-gramが両方の文書でより頻度が高いときに重みを高くする。ワードクラウドのような可視化ツールは、これらのパターンの表現を強化し、より明確な洞察を提供する。
論文参考訳（メタデータ） (2025-03-22T01:20:43Z)
QAEA-DR: A Unified Text Augmentation Framework for Dense Retrieval [12.225881591629815]
厳密な検索では、長いテキストを密度の高いベクトルに埋め込むと、情報が失われ、クエリとテキストのマッチングが不正確になる。近年の研究では,文の埋め込みモデルや検索プロセスの改善を中心に研究が進められている。本稿では,高密度検索のための新しいテキスト拡張フレームワークを導入し,生文書を高密度テキスト形式に変換する。
論文参考訳（メタデータ） (2024-07-29T17:39:08Z)
Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文参考訳（メタデータ） (2024-07-26T07:30:41Z)
Test-time Contrastive Concepts for Open-world Semantic Segmentation [14.899741072838994]
最近のCLIP-like Vision-Language Models (VLM)は、大量の画像テキストペアで事前訓練され、オープン語彙セマンティックセマンティックセグメンテーションへの道を開いた。本稿では,クエリ固有のテキストコントラストの概念を自動生成する2つのアプローチを提案する。
論文参考訳（メタデータ） (2024-07-06T12:18:43Z)
A Text is Worth Several Tokens: Text Embedding from LLMs Secretly Aligns Well with The Key Tokens [20.37803751979975]
テキストを大きな言語モデルベースの埋め込み器に入力すると、得られたテキストの埋め込みは入力テキストのキートークンと一致させることができる。この現象は普遍的であり,モデルアーキテクチャ,トレーニング戦略,埋め込み手法の影響を受けないことを示す。
論文参考訳（メタデータ） (2024-06-25T08:55:12Z)
Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval [31.79030663958162]
本稿では,テキスト埋め込みを柔軟で回復力のあるセマンティックレンジで強化するテキストモデリング手法T-MASSを提案する。具体的には,テキスト・ビデオ・ペアにテキスト・マスのスケールを適応させるために,類似性を考慮した半径モジュールを導入する。 T-MASSは5つのベンチマークデータセットで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-03-26T17:59:52Z)
STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。 CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。 CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文参考訳（メタデータ） (2023-01-30T17:21:30Z)
Textual Entailment Recognition with Semantic Features from Empirical Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文参考訳（メタデータ） (2022-10-18T10:03:51Z)
Telling the What while Pointing the Where: Fine-grained Mouse Trace and Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文参考訳（メタデータ） (2021-02-09T17:54:34Z)
An Intelligent CNN-VAE Text Representation Technology Based on Text Semantics for Comprehensive Big Data [15.680918844684454]
畳み込みニューラルネットワーク(CNN)と可変オートエンコーダ(VAE)に基づくテキスト特徴表現モデルを提案する。提案手法は,k-nearest neighbor (KNN), random forest (RF) および Support vector machine (SVM) 分類アルゴリズムにおいて優れる。
論文参考訳（メタデータ） (2020-08-28T07:39:45Z)
Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。抽出した要約タスクを意味テキストマッチング問題として定式化する。我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文参考訳（メタデータ） (2020-04-19T08:27:57Z)
Comparative Analysis of N-gram Text Representation on Igbo Text Document Similarity [0.0]
情報技術の進歩は、オンラインのリソースやニュース記事などのテキスト作成において、Igboの使用を奨励している。ユークリッド類似度尺度を用いて、2つの単語ベースのn-gramテキスト表現(ユニグラムとビッグラム)モデルで表されるIgboテキスト文書間の類似度を決定する。
論文参考訳（メタデータ） (2020-04-01T12:24:47Z)
Learning to Select Bi-Aspect Information for Document-Scale Text Content Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文参考訳（メタデータ） (2020-02-24T12:52:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。