論文の概要: LDIR: Low-Dimensional Dense and Interpretable Text Embeddings with Relative Representations
- arxiv url: http://arxiv.org/abs/2505.10354v1
- Date: Thu, 15 May 2025 14:45:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.36101
- Title: LDIR: Low-Dimensional Dense and Interpretable Text Embeddings with Relative Representations
- Title(参考訳): LDIR: 相対表現を用いた低次元Dense and Interpretable Text Embeddings
- Authors: Yile Wang, Zhanyu Shen, Hui Huang,
- Abstract要約: 我々はDense and Interpretable text embeddeds with Relative representations (LDIR)を提案する。
その次元の数値は、最遠点サンプリングを通して異なるアンカーテキストと意味的関連性を示す。
LDIRを複数の意味的テキスト類似性、検索、クラスタリングタスクで検証する。
- 参考スコア(独自算出の注目度): 8.997324556908936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic text representation is a fundamental task in the field of natural language processing. Existing text embedding (e.g., SimCSE and LLM2Vec) have demonstrated excellent performance, but the values of each dimension are difficult to trace and interpret. Bag-of-words, as classic sparse interpretable embeddings, suffers from poor performance. Recently, Benara et al. (2024) propose interpretable text embeddings using large language models, which forms "0/1" embeddings based on responses to a series of questions. These interpretable text embeddings are typically high-dimensional (larger than 10,000). In this work, we propose Low-dimensional (lower than 500) Dense and Interpretable text embeddings with Relative representations (LDIR). The numerical values of its dimensions indicate semantic relatedness to different anchor texts through farthest point sampling, offering both semantic representation as well as a certain level of traceability and interpretability. We validate LDIR on multiple semantic textual similarity, retrieval, and clustering tasks. Extensive experimental results show that LDIR performs close to the black-box baseline models and outperforms the interpretable embeddings baselines with much fewer dimensions. Code is available at https://github.com/szu-tera/LDIR.
- Abstract(参考訳): 意味的テキスト表現は自然言語処理の分野における基本的なタスクである。
既存のテキスト埋め込み(例: SimCSE, LLM2Vec)は優れた性能を示したが、各次元の値は追跡や解釈が困難である。
バグ・オブ・ワード(bag-of-word)は、古典的なスパース解釈可能な埋め込みとして、パフォーマンスの低下に悩まされる。
最近,Benara et al (2024) は,一連の質問に対する回答に基づいて "0/1" の埋め込みを生成する大規模言語モデルを用いて,解釈可能なテキスト埋め込みを提案する。
これらの解釈可能なテキストの埋め込みは通常、高次元である(約10,000)。
本研究では,Dense and Interpretable text embeddeds with Relative representations (LDIR)を提案する。
その次元の数値は、最遠点サンプリングを通して異なるアンカーテキストに対する意味的関連性を示し、意味的表現と特定のトレーサビリティと解釈可能性の両方を提供する。
LDIRを複数の意味的テキスト類似性、検索、クラスタリングタスクで検証する。
拡張実験の結果,LDIRはブラックボックスベースラインモデルに近い性能を示し,解釈可能な埋め込みベースラインよりもはるかに少ない寸法で優れていた。
コードはhttps://github.com/szu-tera/LDIRで公開されている。
関連論文リスト
- LLM-based feature generation from text for interpretable machine learning [0.0]
埋め込みやback-of-wordsのような既存のテキスト表現は、その高次元性や欠落、あるいは疑わしい特徴レベルの解釈性のため、ルール学習には適さない。
本稿では,テキストから少数の解釈可能な特徴を抽出することにより,大規模言語モデル(LLM)がこの問題に対処できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-09-11T09:29:28Z) - Unified Lexical Representation for Interpretable Visual-Language Alignment [52.059812317944434]
複雑な設計をせずに両方のモダリティを統一した語彙表現を学習するためのフレームワークであるLexVLAを紹介する。
我々はDINOv2をローカル言語の特徴の視覚モデルとして使用し、生成言語モデルであるLlamaをテキスト内語彙予測能力の活用に利用した。
これら2つの事前学習されたユニモーダルモデルが、控えめなマルチモーダルデータセットを微調整することで、適切に整列できることを実証する。
論文 参考訳(メタデータ) (2024-07-25T07:35:27Z) - Interpretable Neural Embeddings with Sparse Self-Representation [6.969983808566474]
既存の単語埋め込みは一般に密接な表現であり、従って潜在次元の意味を解釈することは困難である。
これにより、単語の埋め込みはブラックボックスのようになり、人間が読めるようになり、さらに操作されるのを防ぐ。
本稿では,表現的,解釈可能な単語埋め込みを学習するために,データ自己表現と浅いニューラルネットワークを関連付ける新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-25T05:57:01Z) - Representation Of Lexical Stylistic Features In Language Models'
Embedding Space [28.60690854046176]
これらのスタイリスティックな概念のそれぞれに対して,少数のシードペアのみからベクトル表現を導出できることが示されている。
5つのデータセットで実験を行い、静的な埋め込みがこれらの特徴を単語やフレーズのレベルでより正確にエンコードすることを発見した。
単語レベルでの文脈化表現の低い性能は、ベクトル空間の異方性に起因する。
論文 参考訳(メタデータ) (2023-05-29T23:44:26Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Toward the Understanding of Deep Text Matching Models for Information
Retrieval [72.72380690535766]
本稿では,既存の深層テキストマッチング手法が情報検索の基本的な勾配を満たすかどうかを検証することを目的とする。
具体的には, 項周波数制約, 項識別制約, 長さ正規化制約, TF長制約の4つの属性を用いる。
LETOR 4.0 と MS Marco の実験結果から,研究対象の深層テキストマッチング手法はすべて,統計学において高い確率で上記の制約を満たすことが示された。
論文 参考訳(メタデータ) (2021-08-16T13:33:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。