論文の概要: FastKASSIM: A Fast Tree Kernel-Based Syntactic Similarity Metric
- arxiv url: http://arxiv.org/abs/2203.08299v1
- Date: Tue, 15 Mar 2022 22:33:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 14:12:41.088392
- Title: FastKASSIM: A Fast Tree Kernel-Based Syntactic Similarity Metric
- Title(参考訳): fastkassim: 高速なツリーカーネルベースの構文類似度メトリクス
- Authors: Maximillian Chen, Caitlyn Chen, Xiao Yu, Zhou Yu
- Abstract要約: 我々は,発話レベルと文書レベルの構文的類似性の指標であるFastKASSIMを提案する。
ツリーカーネルに基づいたドキュメントのペア間で、最も類似した依存関係解析ツリーをペア化し、平均化する。
r/ChangeMyViewコーパス内のドキュメントのベースラインメソッドよりも最大5.2倍高速に動作します。
- 参考スコア(独自算出の注目度): 48.66580267438049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Syntax is a fundamental component of language, yet few metrics have been
employed to capture syntactic similarity or coherence at the utterance- and
document-level. The existing standard document-level syntactic similarity
metric is computationally expensive and performs inconsistently when faced with
syntactically dissimilar documents. To address these challenges, we present
FastKASSIM, a metric for utterance- and document-level syntactic similarity
which pairs and averages the most similar dependency parse trees between a pair
of documents based on tree kernels. FastKASSIM is more robust to syntactic
dissimilarities and differences in length, and runs up to to 5.2 times faster
than our baseline method over the documents in the r/ChangeMyView corpus.
- Abstract(参考訳): 構文は言語の基本的な構成要素であるが、音声や文書レベルでの構文的類似性やコヒーレンスを捉えるために使われる指標は少ない。
既存の標準文書レベルの構文類似度メトリクスは計算コストが高く、構文的に異なる文書に直面すると一貫性がない。
これらの課題に対処するため、我々はfastkassimという発話と文書レベルの構文的類似性のためのメトリクスを提示し、ツリーカーネルに基づく文書のペア間で最も類似した依存関係解析ツリーをペアで平均する。
FastKASSIMは構文上の相違や長さの違いに対してより堅牢であり、r/ChangeMyViewコーパスのドキュメントよりも5.2倍高速である。
関連論文リスト
- Syntactic Language Change in English and German: Metrics, Parsers, and
Convergences [59.3104689496844]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - Spoken Word2Vec: A Perspective And Some Techniques [1.0515439489916731]
分散意味的特徴を符号化するテキストワード埋め込みは、頻繁に発生する単語の文脈的類似性をモデル化することによって機能する。
一方、音響単語の埋め込みは、典型的には低レベル音韻類似性を符号化する。
入力単位が音響的に相関している場合、Word2Vecアルゴリズムが分布意味論を符号化できないことを示す。
論文 参考訳(メタデータ) (2023-11-15T19:25:29Z) - Hexatagging: Projective Dependency Parsing as Tagging [63.5392760743851]
文中の単語を有限個の可能なタグの要素でタグ付けすることで、依存関係木を構成する新しい依存性であるヘキサトガーを導入する。
私たちのアプローチは、トレーニング時に完全に並列化可能です。すなわち、依存関係のパースを構築するのに必要な構造構築アクションは、互いに並列に予測できます。
我々はPenn Treebankテストセット上で96.4 LASと97.4 UASの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-08T18:02:07Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Automatic Correction of Syntactic Dependency Annotation Differences [17.244143187393078]
本稿では,依存関係解析コーパス間のアノテーションミスマッチを自動的に検出する手法を提案する。
これら3つの手法は、新しいコーパスの見知らぬ例と既存のコーパスの同様の例を比較することに依存している。
Stanza (Qianu et al. 2020) と Parsing as Tagging (PaT) の2つの依存関係を変換および非変換データに基づいて再トレーニングすることで、これらの変換を評価する。
論文 参考訳(メタデータ) (2022-01-15T17:17:55Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - A Comparison of Approaches to Document-level Machine Translation [34.2276281264886]
本稿では,文書レベルの現象評価スイートに対して選択したアプローチを体系的に比較する。
我々は,単言語文書レベルでのバック翻訳に基づく単純な手法が,より精巧な代替手段として機能することを見出した。
論文 参考訳(メタデータ) (2021-01-26T19:21:09Z) - Syntactic representation learning for neural network based TTS with
syntactic parse tree traversal [49.05471750563229]
本稿では,構文解析木に基づく構文表現学習手法を提案し,構文構造情報を自動的に活用する。
実験の結果,提案手法の有効性が示された。
複数の構文解析木を持つ文では、合成音声から韻律的差異が明確に認識される。
論文 参考訳(メタデータ) (2020-12-13T05:52:07Z) - Pairwise Multi-Class Document Classification for Semantic Relations
between Wikipedia Articles [5.40541521227338]
2つの文書間の関係をペアワイズ文書分類タスクとして検索する問題をモデル化する。
文書間の意味的関係を見つけるために,GloVe, paragraph-s,BERT,XLNetなどの一連の手法を適用する。
我々は,新たに提案された32,168のウィキペディア記事ペアと,セマンティックドキュメントの関係を定義するウィキデータプロパティに関する実験を行った。
論文 参考訳(メタデータ) (2020-03-22T12:52:56Z) - Text classification with word embedding regularization and soft
similarity measure [0.20999222360659603]
2つの単語埋め込み正規化技術は、ストレージとメモリコストを削減し、トレーニング速度、文書処理速度、タスクパフォーマンスを改善する。
正規化単語埋め込みによる平均$k$NNテスト誤差の39%を非正規化単語埋め込みと比較した。
また,正規化単語埋め込みを用いたSCMはテキスト分類においてWMDを著しく上回り,1万倍以上高速であることを示す。
論文 参考訳(メタデータ) (2020-03-10T22:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。