論文の概要: GNAT: A General Narrative Alignment Tool
- arxiv url: http://arxiv.org/abs/2311.03627v1
- Date: Tue, 7 Nov 2023 00:24:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 17:29:45.435910
- Title: GNAT: A General Narrative Alignment Tool
- Title(参考訳): GNAT: 一般的なナラティブアライメントツール
- Authors: Tanzir Pial, Steven Skiena
- Abstract要約: バイオインフォマティクスと現代のテキスト類似度指標を結合したSmith-Watermanアルゴリズムのナラティブアライメントに対する一般的なアプローチを開発する。
文書の相対長と絶対長の両方で大きく異なる4つの異なる問題領域に対して、一般的な物語アライメントツール(GNAT)を適用し、評価する。
- 参考スコア(独自算出の注目度): 12.100007440638667
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Algorithmic sequence alignment identifies similar segments shared between
pairs of documents, and is fundamental to many NLP tasks. But it is difficult
to recognize similarities between distant versions of narratives such as
translations and retellings, particularly for summaries and abridgements which
are much shorter than the original novels.
We develop a general approach to narrative alignment coupling the
Smith-Waterman algorithm from bioinformatics with modern text similarity
metrics. We show that the background of alignment scores fits a Gumbel
distribution, enabling us to define rigorous p-values on the significance of
any alignment. We apply and evaluate our general narrative alignment tool
(GNAT) on four distinct problem domains differing greatly in both the relative
and absolute length of documents, namely summary-to-book alignment, translated
book alignment, short story alignment, and plagiarism detection --
demonstrating the power and performance of our methods.
- Abstract(参考訳): アルゴリズムシーケンスアライメントは、文書のペア間で共有される類似セグメントを特定し、多くのNLPタスクに基本となる。
しかし、翻訳や書き直しといった物語の遠いバージョン、特に原作小説よりもはるかに短い要約や要約の類似性を認識することは困難である。
バイオインフォマティクスと現代のテキスト類似度指標を結合したSmith-Watermanアルゴリズムのナラティブアライメントに対する一般的なアプローチを開発する。
我々はアライメントスコアの背景がガムベル分布に適合していることを示し、任意のアライメントの意義について厳密なp値を定義する。
本研究は,本手法のパワーと性能を概観する,文書の相対的・絶対的な長さ,すなわち要約から書籍へのアライメント,翻訳本のアライメント,短編アライメント,プラジャリズム検出という4つの異なる問題領域に対して,gnat(general narrative alignment tool)を適用し,評価する。
関連論文リスト
- Predicting Text Preference Via Structured Comparative Reasoning [110.49560164568791]
我々は、構造化中間比較を生成することによって、テキストの嗜好を予測するプロンプト方式であるSCを導入する。
我々は、テキスト間の差異を明確に区別するためのペアワイズ整合コンパレータと一貫した比較を選択する。
要約,検索,自動評価など多種多様なNLPタスクに対する総合的な評価は,SCがテキスト優先予測における最先端性能を達成するためにLLMを装備していることを示す。
論文 参考訳(メタデータ) (2023-11-14T18:51:38Z) - FaNS: a Facet-based Narrative Similarity Metric [6.992767260794627]
本稿では,Facet-based Narrative similarity (FaNS)と呼ばれる新しい物語類似度指標を提案する。
FaNSは、最先端の大規模言語モデル(LLM)を活用して抽出される古典的な5W1Hファセット(Who, What, When, Where, Why, How)に基づいている。
論文 参考訳(メタデータ) (2023-09-09T15:29:24Z) - Rhetorical Role Labeling of Legal Documents using Transformers and Graph
Neural Networks [1.290382979353427]
本稿では,SemEval Task 6の一部として,インドの裁判所判決における修辞的役割のラベル付け作業を行うためのアプローチについて述べる。
論文 参考訳(メタデータ) (2023-05-06T17:04:51Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Compression, Transduction, and Creation: A Unified Framework for
Evaluating Natural Language Generation [85.32991360774447]
自然言語生成(NLG)は幅広いタスクにまたがっており、それぞれが特定の目的のために機能する。
NLGタスクにおける情報変化の性質に基づく統一的な視点を提案する。
我々は,異なるNLGタスクの重要な側面を評価するのに適した,解釈可能なメトリクスのファミリーを開発する。
論文 参考訳(メタデータ) (2021-09-14T01:00:42Z) - Extractive approach for text summarisation using graphs [0.0]
本稿では,抽出手法を用いてテキスト要約問題の解法に用いるグラフ関連アルゴリズムについて検討する。
文章の重なり合いと、文章の類似度を測定するための編集距離の2つの指標を考察する。
論文 参考訳(メタデータ) (2021-06-21T10:03:34Z) - Topical Change Detection in Documents via Embeddings of Long Sequences [4.13878392637062]
テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化する。
類似セクションの段落を微調整することで、学習した特徴がトピック情報をエンコードすることを示すことができます。
文レベルで操作する従来のアプローチとは異なり、我々は常により広いコンテキストを使用します。
論文 参考訳(メタデータ) (2020-12-07T12:09:37Z) - Relation Clustering in Narrative Knowledge Graphs [71.98234178455398]
原文内の関係文は(SBERTと)埋め込み、意味論的に類似した関係をまとめるためにクラスタ化される。
予備的なテストでは、そのようなクラスタリングが類似した関係を検知し、半教師付きアプローチのための貴重な前処理を提供することが示されている。
論文 参考訳(メタデータ) (2020-11-27T10:43:04Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。