論文の概要: Interpreting Embedding Spaces by Conceptualization
- arxiv url: http://arxiv.org/abs/2209.00445v3
- Date: Thu, 9 Nov 2023 13:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 19:14:31.426497
- Title: Interpreting Embedding Spaces by Conceptualization
- Title(参考訳): 概念化による埋め込み空間の解釈
- Authors: Adi Simhi and Shaul Markovitch
- Abstract要約: 本稿では,埋め込み空間を理解可能な概念空間に変換することによって,埋め込みを理解する新しい方法を提案する。
本研究では,人間のレーダやLDMをベースとしたレーダを用いた新しい評価手法を考案し,ベクトルが本来の潜伏状態のセマンティクスを実際に表現していることを示す。
- 参考スコア(独自算出の注目度): 2.620130580437745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the main methods for computational interpretation of a text is mapping
it into a vector in some embedding space. Such vectors can then be used for a
variety of textual processing tasks. Recently, most embedding spaces are a
product of training large language models (LLMs). One major drawback of this
type of representation is their incomprehensibility to humans. Understanding
the embedding space is crucial for several important needs, including the need
to debug the embedding method and compare it to alternatives, and the need to
detect biases hidden in the model. In this paper, we present a novel method of
understanding embeddings by transforming a latent embedding space into a
comprehensible conceptual space. We present an algorithm for deriving a
conceptual space with dynamic on-demand granularity. We devise a new evaluation
method, using either human rater or LLM-based raters, to show that the
conceptualized vectors indeed represent the semantics of the original latent
ones. We show the use of our method for various tasks, including comparing the
semantics of alternative models and tracing the layers of the LLM. The code is
available online
https://github.com/adiSimhi/Interpreting-Embedding-Spaces-by-Conceptualization.
- Abstract(参考訳): テキストの計算解釈の主要な方法の1つは、それを埋め込み空間内のベクトルにマッピングすることである。
このようなベクトルは、様々なテキスト処理タスクに使用できる。
近年、ほとんどの埋め込み空間は、大規模言語モデル(LLM)を訓練する製品である。
この種の表現の大きな欠点は、人間に対する理解不能である。
埋め込み空間を理解することは、組み込みメソッドをデバッグし、代替メソッドと比較する必要性や、モデルに隠されているバイアスを検出する必要性など、いくつかの重要なニーズに不可欠である。
本稿では,埋め込み空間を理解可能な概念空間に変換することによって,埋め込みを理解する新しい手法を提案する。
動的オンデマンドな粒度を持つ概念空間を導出するアルゴリズムを提案する。
本研究では,人間のリサーとllmベースのリサーを用いて,概念化されたベクターが本来の潜在ベクターの意味を実際に表現していることを示す新しい評価手法を提案する。
代替モデルのセマンティクスを比較し,LLMの層をトレースするなど,様々なタスクに本手法を用いることを示す。
コードはオンラインhttps://github.com/adiSimhi/Interpreting-Embedding-Spaces-by-Conceptualizationで入手できる。
関連論文リスト
- FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Local Topology Measures of Contextual Language Model Latent Spaces With Applications to Dialogue Term Extraction [4.887047578768969]
本稿では,文脈言語モデルの潜在空間の局所位相の複雑性尺度を導入する。
我々の研究は、単語埋め込みの多様体仮説を探求する一連の研究を継続している。
論文 参考訳(メタデータ) (2024-08-07T11:44:32Z) - Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - Latent Space Translation via Inverse Relative Projection [35.873300268472335]
元の空間を共有あるいは相対的な空間に独立にマッピングすることで、「ラテント空間通信」を実現することができる。
我々はこの2つを、相対空間を通して潜在空間変換を得るための新しい方法に結合する。
提案手法は,構成性によるモデル再利用を現実的に促進するための重要な可能性を持っている。
論文 参考訳(メタデータ) (2024-06-21T11:11:46Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Demystifying Embedding Spaces using Large Language Models [26.91321899603332]
本稿では,埋め込みをより解釈しやすく,広く活用する上での課題に対処する。
埋め込みを直接操作するためにLarge Language Models(LLMs)を用いることで、抽象ベクトルを理解可能な物語に変換する。
提案手法は,概念アクティベーションベクトル(CAV)の強化,新しい組み込みエンティティの通信,レコメンデーションシステムにおけるユーザの好みのデコードなど,多種多様なタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-06T05:27:28Z) - Representation Of Lexical Stylistic Features In Language Models'
Embedding Space [28.60690854046176]
これらのスタイリスティックな概念のそれぞれに対して,少数のシードペアのみからベクトル表現を導出できることが示されている。
5つのデータセットで実験を行い、静的な埋め込みがこれらの特徴を単語やフレーズのレベルでより正確にエンコードすることを発見した。
単語レベルでの文脈化表現の低い性能は、ベクトル空間の異方性に起因する。
論文 参考訳(メタデータ) (2023-05-29T23:44:26Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文 参考訳(メタデータ) (2022-03-16T11:06:50Z) - Spatial Pyramid Based Graph Reasoning for Semantic Segmentation [67.47159595239798]
セマンティックセグメンテーションタスクにグラフ畳み込みを適用し、改良されたラプラシアンを提案する。
グラフ推論は、空間ピラミッドとして構成された元の特徴空間で直接実行される。
計算とメモリのオーバーヘッドの利点で同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-03-23T12:28:07Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。