論文の概要: Interpreting Embedding Spaces by Conceptualization
- arxiv url: http://arxiv.org/abs/2209.00445v3
- Date: Thu, 9 Nov 2023 13:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 19:14:31.426497
- Title: Interpreting Embedding Spaces by Conceptualization
- Title(参考訳): 概念化による埋め込み空間の解釈
- Authors: Adi Simhi and Shaul Markovitch
- Abstract要約: 本稿では,埋め込み空間を理解可能な概念空間に変換することによって,埋め込みを理解する新しい方法を提案する。
本研究では,人間のレーダやLDMをベースとしたレーダを用いた新しい評価手法を考案し,ベクトルが本来の潜伏状態のセマンティクスを実際に表現していることを示す。
- 参考スコア(独自算出の注目度): 2.620130580437745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the main methods for computational interpretation of a text is mapping
it into a vector in some embedding space. Such vectors can then be used for a
variety of textual processing tasks. Recently, most embedding spaces are a
product of training large language models (LLMs). One major drawback of this
type of representation is their incomprehensibility to humans. Understanding
the embedding space is crucial for several important needs, including the need
to debug the embedding method and compare it to alternatives, and the need to
detect biases hidden in the model. In this paper, we present a novel method of
understanding embeddings by transforming a latent embedding space into a
comprehensible conceptual space. We present an algorithm for deriving a
conceptual space with dynamic on-demand granularity. We devise a new evaluation
method, using either human rater or LLM-based raters, to show that the
conceptualized vectors indeed represent the semantics of the original latent
ones. We show the use of our method for various tasks, including comparing the
semantics of alternative models and tracing the layers of the LLM. The code is
available online
https://github.com/adiSimhi/Interpreting-Embedding-Spaces-by-Conceptualization.
- Abstract(参考訳): テキストの計算解釈の主要な方法の1つは、それを埋め込み空間内のベクトルにマッピングすることである。
このようなベクトルは、様々なテキスト処理タスクに使用できる。
近年、ほとんどの埋め込み空間は、大規模言語モデル(LLM)を訓練する製品である。
この種の表現の大きな欠点は、人間に対する理解不能である。
埋め込み空間を理解することは、組み込みメソッドをデバッグし、代替メソッドと比較する必要性や、モデルに隠されているバイアスを検出する必要性など、いくつかの重要なニーズに不可欠である。
本稿では,埋め込み空間を理解可能な概念空間に変換することによって,埋め込みを理解する新しい手法を提案する。
動的オンデマンドな粒度を持つ概念空間を導出するアルゴリズムを提案する。
本研究では,人間のリサーとllmベースのリサーを用いて,概念化されたベクターが本来の潜在ベクターの意味を実際に表現していることを示す新しい評価手法を提案する。
代替モデルのセマンティクスを比較し,LLMの層をトレースするなど,様々なタスクに本手法を用いることを示す。
コードはオンラインhttps://github.com/adiSimhi/Interpreting-Embedding-Spaces-by-Conceptualizationで入手できる。
関連論文リスト
- Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Demystifying Embedding Spaces using Large Language Models [26.91321899603332]
本稿では,埋め込みをより解釈しやすく,広く活用する上での課題に対処する。
埋め込みを直接操作するためにLarge Language Models(LLMs)を用いることで、抽象ベクトルを理解可能な物語に変換する。
提案手法は,概念アクティベーションベクトル(CAV)の強化,新しい組み込みエンティティの通信,レコメンデーションシステムにおけるユーザの好みのデコードなど,多種多様なタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-06T05:27:28Z) - An Integral Projection-based Semantic Autoencoder for Zero-Shot Learning [0.46644955105516456]
ゼロショット学習(ZSL)分類は、トレーニングセットに含まれないクラス(ラベル)を分類または予測する(見えないクラス)。
近年の研究では、エンコーダが視覚的特徴空間をセマンティック空間に埋め込み、デコーダが元の視覚的特徴空間を再構成する、異なる意味的オートエンコーダ(SAE)モデルが提案されている。
本稿では,意味空間でベクトル化された視覚的特徴空間を潜在表現空間に投影する統合投影型セマンティックオートエンコーダ(IP-SAE)を提案する。
論文 参考訳(メタデータ) (2023-06-26T12:06:20Z) - Representation Of Lexical Stylistic Features In Language Models'
Embedding Space [28.60690854046176]
これらのスタイリスティックな概念のそれぞれに対して,少数のシードペアのみからベクトル表現を導出できることが示されている。
5つのデータセットで実験を行い、静的な埋め込みがこれらの特徴を単語やフレーズのレベルでより正確にエンコードすることを発見した。
単語レベルでの文脈化表現の低い性能は、ベクトル空間の異方性に起因する。
論文 参考訳(メタデータ) (2023-05-29T23:44:26Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Measuring the Interpretability of Unsupervised Representations via
Quantized Reverse Probing [97.70862116338554]
本稿では,自己教師付き表現の解釈可能性の測定問題について検討する。
我々は、後者を、表現と手動でラベル付けされた概念の空間の間の相互情報を推定するものとして定式化する。
提案手法は,多人数の自己教師付き表現の評価に利用し,解釈可能性による評価を行う。
論文 参考訳(メタデータ) (2022-09-07T16:18:50Z) - Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文 参考訳(メタデータ) (2022-03-16T11:06:50Z) - Auto-Encoding Variational Bayes for Inferring Topics and Visualization [2.132096006921048]
ビジュアライゼーションとトピックモデリングは、テキスト分析のアプローチとして広く使われている。
近年のアプローチでは、生成モデルを用いてトピックと可視化を共同で発見する手法が提案されている。
提案手法は,自動変分ベイズをベースとした自動変分ベイズ推定手法で,トピックと可視化を共同で推定する手法である。
論文 参考訳(メタデータ) (2020-10-19T05:57:11Z) - Spatial Pyramid Based Graph Reasoning for Semantic Segmentation [67.47159595239798]
セマンティックセグメンテーションタスクにグラフ畳み込みを適用し、改良されたラプラシアンを提案する。
グラフ推論は、空間ピラミッドとして構成された元の特徴空間で直接実行される。
計算とメモリのオーバーヘッドの利点で同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-03-23T12:28:07Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z) - Distributional semantic modeling: a revised technique to train term/word
vector space models applying the ontology-related approach [36.248702416150124]
ニューラルネットワークを用いた分散項表現(あるいは項埋め込み)学習による分布意味モデリングのための新しい手法を設計する。
Vec2graphは、動的かつインタラクティブなグラフとして単語埋め込み(私たちの場合の長期埋め込み)を視覚化するためのPythonライブラリである。
論文 参考訳(メタデータ) (2020-03-06T18:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。