論文の概要: Interpreting Embedding Spaces by Conceptualization
- arxiv url: http://arxiv.org/abs/2209.00445v1
- Date: Mon, 22 Aug 2022 15:32:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-04 02:04:55.630899
- Title: Interpreting Embedding Spaces by Conceptualization
- Title(参考訳): 概念化による埋め込み空間の解釈
- Authors: Adi Simhi and Shaul Markovitch
- Abstract要約: 本稿では,任意の埋め込み空間を理解可能な概念空間に変換する新しい方法を提案する。
元の可理解空間内の任意のベクトルを概念空間内の可理解ベクトルに転送する方法を示す。
また、概念化されたベクトルが、元の空間の根底にあるセマンティクスの弱点の特定や、代替モデルのセマンティクスの違いなど、様々なタスクにどのように使用できるかを示す。
- 参考スコア(独自算出の注目度): 4.797216015572358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the main methods for semantic interpretation of text is mapping it
into a vector in some embedding space. Such vectors can then be used for a
variety of text processing tasks. Recently, most embedding spaces are a product
of training large language models. One major drawback of this type of
representation is its incomprehensibility to humans. Understanding the
embedding space is crucial for several important needs, including the need to
explain the decision of a system that uses the embedding, the need to debug the
embedding method and compare it to alternatives, and the need to detect biases
hidden in the model. In this paper, we present a novel method of transforming
any embedding space into a comprehensible conceptual space. We first present an
algorithm for deriving a conceptual space with dynamic on-demand granularity.
We then show a method for transferring any vector in the original
incomprehensible space to an understandable vector in the conceptual space. We
combine human tests with cross-model tests to show that the conceptualized
vectors indeed represent the semantics of the original vectors. We also show
how the conceptualized vectors can be used for various tasks including
identifying weaknesses in the semantics underlying the original spaces and
differences in the semantics of alternative models.
- Abstract(参考訳): テキストの意味解釈の主要な方法の1つは、それを埋め込み空間内のベクトルにマッピングすることである。
このようなベクトルは、様々なテキスト処理タスクに使用できる。
近年、ほとんどの埋め込み空間は、大規模言語モデルを訓練する製品である。
この種の表現の大きな欠点は、人間にとって理解できないことである。
組み込み空間を理解することは、組み込みを使用するシステムの決定を説明する必要性、組み込みメソッドをデバッグして代替メソッドと比較する必要性、モデルに隠されたバイアスを検出する必要性など、いくつかの重要なニーズに不可欠である。
本稿では,任意の埋め込み空間を理解可能な概念空間に変換する新しい手法を提案する。
まず,概念空間を動的オンデマンド粒度で導出するアルゴリズムを提案する。
次に、元の可理解空間内の任意のベクトルを概念空間内の可理解ベクトルに転送する方法を示す。
人間のテストとクロスモデルテストを組み合わせることで、概念化されたベクトルが元のベクトルの意味を表現することを示す。
また、概念化されたベクトルが、元の空間の根底にあるセマンティクスの弱点の特定や、代替モデルのセマンティクスの違いなど、様々なタスクにどのように使用できるかを示す。
関連論文リスト
- FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Local Topology Measures of Contextual Language Model Latent Spaces With Applications to Dialogue Term Extraction [4.887047578768969]
本稿では,文脈言語モデルの潜在空間の局所位相の複雑性尺度を導入する。
我々の研究は、単語埋め込みの多様体仮説を探求する一連の研究を継続している。
論文 参考訳(メタデータ) (2024-08-07T11:44:32Z) - Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - Latent Space Translation via Inverse Relative Projection [35.873300268472335]
元の空間を共有あるいは相対的な空間に独立にマッピングすることで、「ラテント空間通信」を実現することができる。
我々はこの2つを、相対空間を通して潜在空間変換を得るための新しい方法に結合する。
提案手法は,構成性によるモデル再利用を現実的に促進するための重要な可能性を持っている。
論文 参考訳(メタデータ) (2024-06-21T11:11:46Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Demystifying Embedding Spaces using Large Language Models [26.91321899603332]
本稿では,埋め込みをより解釈しやすく,広く活用する上での課題に対処する。
埋め込みを直接操作するためにLarge Language Models(LLMs)を用いることで、抽象ベクトルを理解可能な物語に変換する。
提案手法は,概念アクティベーションベクトル(CAV)の強化,新しい組み込みエンティティの通信,レコメンデーションシステムにおけるユーザの好みのデコードなど,多種多様なタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-06T05:27:28Z) - Representation Of Lexical Stylistic Features In Language Models'
Embedding Space [28.60690854046176]
これらのスタイリスティックな概念のそれぞれに対して,少数のシードペアのみからベクトル表現を導出できることが示されている。
5つのデータセットで実験を行い、静的な埋め込みがこれらの特徴を単語やフレーズのレベルでより正確にエンコードすることを発見した。
単語レベルでの文脈化表現の低い性能は、ベクトル空間の異方性に起因する。
論文 参考訳(メタデータ) (2023-05-29T23:44:26Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文 参考訳(メタデータ) (2022-03-16T11:06:50Z) - Spatial Pyramid Based Graph Reasoning for Semantic Segmentation [67.47159595239798]
セマンティックセグメンテーションタスクにグラフ畳み込みを適用し、改良されたラプラシアンを提案する。
グラフ推論は、空間ピラミッドとして構成された元の特徴空間で直接実行される。
計算とメモリのオーバーヘッドの利点で同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-03-23T12:28:07Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。