論文の概要: Gram2Vec: An Interpretable Document Vectorizer
- arxiv url: http://arxiv.org/abs/2406.12131v1
- Date: Mon, 17 Jun 2024 22:42:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 23:28:06.706683
- Title: Gram2Vec: An Interpretable Document Vectorizer
- Title(参考訳): Gram2Vec: 解釈可能なドキュメントベクタ
- Authors: Peter Zeng, Eric Sclafani, Owen Rambow,
- Abstract要約: Gram2Vecは文書を高次元空間に埋め込み、テキストに存在する文法的特徴の正規化された相対周波数を抽出する。
ニューラルアプローチと比較して、Gram2Vecは、特徴ベクトルの生成方法に基づいた固有の解釈性を提供する。
- 参考スコア(独自算出の注目度): 4.639916787135392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Gram2Vec, a grammatical style embedding algorithm that embeds documents into a higher dimensional space by extracting the normalized relative frequencies of grammatical features present in the text. Compared to neural approaches, Gram2Vec offers inherent interpretability based on how the feature vectors are generated. In our demo, we present a way to visualize a mapping of authors to documents based on their Gram2Vec vectors and highlight the ability to drop or add features to view which authors make certain linguistic choices. Next, we use authorship attribution as an application to show how Gram2Vec can explain why a document is attributed to a certain author, using cosine similarities between the Gram2Vec feature vectors to calculate the distances between candidate documents and a query document.
- Abstract(参考訳): テキスト中の文法的特徴の正規化相対周波数を抽出することにより,文書を高次元空間に埋め込む文法的スタイルの埋め込みアルゴリズムであるGram2Vecを提案する。
ニューラルアプローチと比較して、Gram2Vecは、特徴ベクトルの生成方法に基づいた固有の解釈性を提供する。
デモでは,Gram2Vecベクタをベースとした文書への著者のマッピングを視覚化し,どの著者が特定の言語的選択を行うかを確認するために,機能をドロップまたは追加する機能を強調した。
次に、著者属性を用いて、Gram2Vecの機能ベクトル間のコサイン類似性を用いて、候補文書とクエリドキュメント間の距離を計算することにより、文書が特定の著者に帰属する理由を説明する。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Learning Multiplex Representations on Text-Attributed Graphs with One Language Model Encoder [55.24276913049635]
テキスト分散グラフ上での多重表現学習のための新しいフレームワークMETAGを提案する。
既存の手法とは対照的に、MeTAGは1つのテキストエンコーダを使用して関係性間の共有知識をモデル化する。
学術分野と電子商取引分野の5つのグラフにおいて,9つの下流タスクについて実験を行った。
論文 参考訳(メタデータ) (2023-10-10T14:59:22Z) - SPINDLE: Spinning Raw Text into Lambda Terms with Graph Attention [0.8379286663107844]
モジュールは、原文入力をラムダ項で表現された意味合成のためのプログラムに変換する。
その出力は多モーダル型論理文法の階層的導出から成り立っている。
論文 参考訳(メタデータ) (2023-02-23T14:22:45Z) - Same or Different? Diff-Vectors for Authorship Analysis [78.83284164605473]
古典的な著作物分析において、特徴ベクトルは文書を表し、特徴の値は文書中の特徴の相対周波数(関数の増大)を表し、クラスラベルは文書の著者を表す。
筆者らの実験は共著者検証,著者検証,クローズドセットの著者帰属に取り組んでおり,DVは自然に第1の問題を解くのに向いているが,第2と第3の問題を解くための2つの新しい方法も提供している。
論文 参考訳(メタデータ) (2023-01-24T08:48:12Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - Searching for Discriminative Words in Multidimensional Continuous
Feature Space [0.0]
文書から識別キーワードを抽出する新しい手法を提案する。
異なる差別的指標が全体的な結果にどのように影響するかを示す。
単語特徴ベクトルは文書の意味のトピック的推論を大幅に改善することができると結論付けている。
論文 参考訳(メタデータ) (2022-11-26T18:05:11Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Vectorization and Rasterization: Self-Supervised Learning for Sketch and
Handwriting [168.91748514706995]
自己監督型機能学習のための2つの新しいクロスモーダル翻訳プリテキストタスクを提案する:ベクトル化とラスタリゼーション。
当社の学習したエンコーダモジュールは、手書きデータを分析するために、ベースとベクターの両方のダウンストリームアプローチに役立ちます。
論文 参考訳(メタデータ) (2021-03-25T09:47:18Z) - Graph-based Topic Extraction from Vector Embeddings of Text Documents:
Application to a Corpus of News Articles [0.0]
自然言語処理の強力なベクトル埋め込みと,マルチスケールグラフ分割のツールを組み合わせた,教師なしのフレームワークを提案する。
グラフベースのクラスタリングの利点を,他の一般的なクラスタリングやトピックモデリング手法とエンドツーエンド比較によって示す。
この研究は2016年の大統領選挙の際、アメリカのニュース記事のコーパスを分析して紹介された。
論文 参考訳(メタデータ) (2020-10-28T16:20:05Z) - Generating Word and Document Embeddings for Sentiment Analysis [0.36525095710982913]
本稿では、文脈情報と教師付き情報と、辞書に現れる単語の一般的な意味表現を組み合わせる。
トルコの映画ドメインとTwitterデータセットである2つのコーパスに対して、ドメイン固有の感情ベクトルを誘導する。
これは我々のアプローチがクロスドメインであり、他の言語に移植可能であることを示している。
論文 参考訳(メタデータ) (2020-01-05T16:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。