Fugu-MT 論文翻訳(概要): FastKASSIM: A Fast Tree Kernel-Based Syntactic Similarity Metric

論文の概要: FastKASSIM: A Fast Tree Kernel-Based Syntactic Similarity Metric

arxiv url: http://arxiv.org/abs/2203.08299v1
Date: Tue, 15 Mar 2022 22:33:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-17 14:12:41.088392
Title: FastKASSIM: A Fast Tree Kernel-Based Syntactic Similarity Metric
Title（参考訳）: fastkassim: 高速なツリーカーネルベースの構文類似度メトリクス
Authors: Maximillian Chen, Caitlyn Chen, Xiao Yu, Zhou Yu
Abstract要約: 我々は,発話レベルと文書レベルの構文的類似性の指標であるFastKASSIMを提案する。ツリーカーネルに基づいたドキュメントのペア間で、最も類似した依存関係解析ツリーをペア化し、平均化する。 r/ChangeMyViewコーパス内のドキュメントのベースラインメソッドよりも最大5.2倍高速に動作します。
参考スコア（独自算出の注目度）: 48.66580267438049
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Syntax is a fundamental component of language, yet few metrics have been employed to capture syntactic similarity or coherence at the utterance- and document-level. The existing standard document-level syntactic similarity metric is computationally expensive and performs inconsistently when faced with syntactically dissimilar documents. To address these challenges, we present FastKASSIM, a metric for utterance- and document-level syntactic similarity which pairs and averages the most similar dependency parse trees between a pair of documents based on tree kernels. FastKASSIM is more robust to syntactic dissimilarities and differences in length, and runs up to to 5.2 times faster than our baseline method over the documents in the r/ChangeMyView corpus.
Abstract（参考訳）: 構文は言語の基本的な構成要素であるが、音声や文書レベルでの構文的類似性やコヒーレンスを捉えるために使われる指標は少ない。既存の標準文書レベルの構文類似度メトリクスは計算コストが高く、構文的に異なる文書に直面すると一貫性がない。これらの課題に対処するため、我々はfastkassimという発話と文書レベルの構文的類似性のためのメトリクスを提示し、ツリーカーネルに基づく文書のペア間で最も類似した依存関係解析ツリーをペアで平均する。 FastKASSIMは構文上の相違や長さの違いに対してより堅牢であり、r/ChangeMyViewコーパスのドキュメントよりも5.2倍高速である。

関連論文リスト

DISRetrieval: Harnessing Discourse Structure for Long Document Retrieval [51.89673002051528]
DISRetrievalは、言語談話構造を利用して長い文書理解を強化する新しい階層的検索フレームワークである。本研究は,談話構造が文書の長さや問合せの種類によって検索効率を著しく向上することを確認する。
論文参考訳（メタデータ） (2025-05-26T14:45:12Z)
QUDsim: Quantifying Discourse Similarities in LLM-Generated Text [70.22275200293964]
本稿では,会話の進行過程の違いの定量化を支援するために,言語理論に基づくQUDと質問意味論を紹介する。このフレームワークを使って$textbfQUDsim$を作ります。 QUDsimを用いて、コンテンツが異なる場合であっても、LLMはサンプル間で(人間よりも)談話構造を再利用することが多い。
論文参考訳（メタデータ） (2025-04-12T23:46:09Z)
Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文参考訳（メタデータ） (2024-10-03T14:33:34Z)
Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文参考訳（メタデータ） (2024-09-23T15:02:38Z)
Revisiting Code Similarity Evaluation with Abstract Syntax Tree Edit Distance [6.164970071786899]
我々は、最近のコード類似度評価指標を再考し、特に抽象構文木(AST)編集距離の適用に焦点を当てた。実験では、複雑なコード構造をキャプチャする際のAST編集距離の有効性を示し、既存のメトリクスと高い相関関係を示した。すべてのテスト言語で有効性を示すメトリクスを提案し,最適化し,公開する。
論文参考訳（メタデータ） (2024-04-12T21:28:18Z)
Hexatagging: Projective Dependency Parsing as Tagging [63.5392760743851]
文中の単語を有限個の可能なタグの要素でタグ付けすることで、依存関係木を構成する新しい依存性であるヘキサトガーを導入する。私たちのアプローチは、トレーニング時に完全に並列化可能です。すなわち、依存関係のパースを構築するのに必要な構造構築アクションは、互いに並列に予測できます。我々はPenn Treebankテストセット上で96.4 LASと97.4 UASの最先端性能を実現する。
論文参考訳（メタデータ） (2023-06-08T18:02:07Z)
Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文参考訳（メタデータ） (2023-05-21T17:14:31Z)
More Than Words: Collocation Tokenization for Latent Dirichlet Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文参考訳（メタデータ） (2021-08-24T14:08:19Z)
A Comparison of Approaches to Document-level Machine Translation [34.2276281264886]
本稿では,文書レベルの現象評価スイートに対して選択したアプローチを体系的に比較する。我々は,単言語文書レベルでのバック翻訳に基づく単純な手法が,より精巧な代替手段として機能することを見出した。
論文参考訳（メタデータ） (2021-01-26T19:21:09Z)
Syntactic representation learning for neural network based TTS with syntactic parse tree traversal [49.05471750563229]
本稿では,構文解析木に基づく構文表現学習手法を提案し,構文構造情報を自動的に活用する。実験の結果,提案手法の有効性が示された。複数の構文解析木を持つ文では、合成音声から韻律的差異が明確に認識される。
論文参考訳（メタデータ） (2020-12-13T05:52:07Z)
Pairwise Multi-Class Document Classification for Semantic Relations between Wikipedia Articles [5.40541521227338]
2つの文書間の関係をペアワイズ文書分類タスクとして検索する問題をモデル化する。文書間の意味的関係を見つけるために,GloVe, paragraph-s,BERT,XLNetなどの一連の手法を適用する。我々は,新たに提案された32,168のウィキペディア記事ペアと,セマンティックドキュメントの関係を定義するウィキデータプロパティに関する実験を行った。
論文参考訳（メタデータ） (2020-03-22T12:52:56Z)
Text classification with word embedding regularization and soft similarity measure [0.20999222360659603]
2つの単語埋め込み正規化技術は、ストレージとメモリコストを削減し、トレーニング速度、文書処理速度、タスクパフォーマンスを改善する。正規化単語埋め込みによる平均$k$NNテスト誤差の39%を非正規化単語埋め込みと比較した。また,正規化単語埋め込みを用いたSCMはテキスト分類においてWMDを著しく上回り,1万倍以上高速であることを示す。
論文参考訳（メタデータ） (2020-03-10T22:07:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。