論文の概要: Local Topology Measures of Contextual Language Model Latent Spaces With Applications to Dialogue Term Extraction
- arxiv url: http://arxiv.org/abs/2408.03706v1
- Date: Wed, 7 Aug 2024 11:44:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 13:14:23.080651
- Title: Local Topology Measures of Contextual Language Model Latent Spaces With Applications to Dialogue Term Extraction
- Title(参考訳): 文脈言語モデル潜在空間の局所的トポロジーと対話項抽出への応用
- Authors: Benjamin Matthias Ruppik, Michael Heck, Carel van Niekerk, Renato Vukovic, Hsien-chin Lin, Shutong Feng, Marcus Zibrowius, Milica Gašić,
- Abstract要約: 本稿では,文脈言語モデルの潜在空間の局所位相の複雑性尺度を導入する。
我々の研究は、単語埋め込みの多様体仮説を探求する一連の研究を継続している。
- 参考スコア(独自算出の注目度): 4.887047578768969
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A common approach for sequence tagging tasks based on contextual word representations is to train a machine learning classifier directly on these embedding vectors. This approach has two shortcomings. First, such methods consider single input sequences in isolation and are unable to put an individual embedding vector in relation to vectors outside the current local context of use. Second, the high performance of these models relies on fine-tuning the embedding model in conjunction with the classifier, which may not always be feasible due to the size or inaccessibility of the underlying feature-generation model. It is thus desirable, given a collection of embedding vectors of a corpus, i.e., a datastore, to find features of each vector that describe its relation to other, similar vectors in the datastore. With this in mind, we introduce complexity measures of the local topology of the latent space of a contextual language model with respect to a given datastore. The effectiveness of our features is demonstrated through their application to dialogue term extraction. Our work continues a line of research that explores the manifold hypothesis for word embeddings, demonstrating that local structure in the space carved out by word embeddings can be exploited to infer semantic properties.
- Abstract(参考訳): 文脈的単語表現に基づくシーケンスタグタスクの一般的なアプローチは、これらの埋め込みベクトルを直接機械学習分類器を訓練することである。
このアプローチには2つの欠点があります。
第一に、このような方法は単一入力シーケンスを独立に考慮し、個々の埋め込みベクトルを現在のローカルコンテキスト外のベクトルに関連付けることができない。
第二に、これらのモデルの高性能性は、分類器と共に埋め込みモデルを微調整することに依存しており、基礎となる特徴生成モデルのサイズやアクセシビリティのため、必ずしも実現不可能であるとは限らない。
したがって、コーパスの埋め込みベクトル、すなわちデータストアの埋め込みベクトルの集合が、データストア内の他の類似したベクトルとの関係を記述した各ベクトルの特徴を見つけるのが望ましい。
このことを念頭に置いて、与えられたデータストアに関する文脈言語モデルの潜在空間の局所的トポロジーの複雑さ尺度を導入する。
本手法の有効性は,対話項抽出への応用を通じて示される。
我々の研究は、単語埋め込みの多様体仮説を探求する一連の研究を継続し、単語埋め込みによって彫られた空間の局所構造が意味的特性を推測するために利用できることを実証している。
関連論文リスト
- Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Grounding and Distinguishing Conceptual Vocabulary Through Similarity
Learning in Embodied Simulations [4.507860128918788]
そこで本研究では,具体的シミュレーションによって収集されたエージェント体験を用いて,文脈化された単語ベクトルをオブジェクト表現にグラウンド化する手法を提案する。
類似性学習を用いて、相互作用するオブジェクトの特性に基づいて、異なるオブジェクトタイプの比較を行い、オブジェクトの振る舞いに関連する共通の特徴を抽出する。
論文 参考訳(メタデータ) (2023-05-23T04:22:00Z) - Interpreting Embedding Spaces by Conceptualization [2.620130580437745]
本稿では,埋め込み空間を理解可能な概念空間に変換することによって,埋め込みを理解する新しい方法を提案する。
本研究では,人間のレーダやLDMをベースとしたレーダを用いた新しい評価手法を考案し,ベクトルが本来の潜伏状態のセマンティクスを実際に表現していることを示す。
論文 参考訳(メタデータ) (2022-08-22T15:32:17Z) - Compositional Generalization in Grounded Language Learning via Induced
Model Sparsity [81.38804205212425]
グリッド環境における単純な言語条件のナビゲーション問題について考察する。
本研究では,オブジェクトの指示文と属性のスパース相関を助長するエージェントを設計し,それらを組み合わせて目的を導出する。
我々のエージェントは、少数のデモンストレーションから学習した場合でも、新しいプロパティの組み合わせを含む目標に対して高いレベルのパフォーマンスを維持している。
論文 参考訳(メタデータ) (2022-07-06T08:46:27Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Out-of-Manifold Regularization in Contextual Embedding Space for Text
Classification [22.931314501371805]
空間の残りの部分を見つけ、正規化するための新しいアプローチを提案します。
実際に観察された単語から得られた2つの埋め込みに基づいて, アウトオブマニフォールド埋め込みを合成する。
判別器は、入力埋め込みがマニホールド内に位置するかどうかを検出するように訓練され、同時に、ジェネレーターは、容易にマニホールド外として識別できる新しい埋め込みを生成するように最適化される。
論文 参考訳(メタデータ) (2021-05-14T10:17:59Z) - Low-Resource Task-Oriented Semantic Parsing via Intrinsic Modeling [65.51280121472146]
私たちは本質的にオントロジーラベルについて知っているものを利用して、効率的なセマンティック解析モデルを構築します。
我々のモデルはTOPv2から派生した低リソースのベンチマークを用いて高効率である。
論文 参考訳(メタデータ) (2021-04-15T04:01:02Z) - Prototypical Representation Learning for Relation Extraction [56.501332067073065]
本論文では, 遠隔ラベルデータから予測可能, 解釈可能, 堅牢な関係表現を学習することを目的とする。
文脈情報から各関係のプロトタイプを学習し,関係の本質的意味を最善に探求する。
いくつかの関係学習タスクの結果,本モデルが従来の関係モデルを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-03-22T08:11:43Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - Context based Text-generation using LSTM networks [0.5330240017302621]
提案モデルでは,与えられた入力単語の集合とコンテキストベクトルのテキストを生成するように訓練されている。
生成したテキストのコンテキストに対するセマンティック・クローズネスに基づいて評価を行う。
論文 参考訳(メタデータ) (2020-04-30T18:39:25Z) - Distributional semantic modeling: a revised technique to train term/word
vector space models applying the ontology-related approach [36.248702416150124]
ニューラルネットワークを用いた分散項表現(あるいは項埋め込み)学習による分布意味モデリングのための新しい手法を設計する。
Vec2graphは、動的かつインタラクティブなグラフとして単語埋め込み(私たちの場合の長期埋め込み)を視覚化するためのPythonライブラリである。
論文 参考訳(メタデータ) (2020-03-06T18:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。