論文の概要: Extraction and Evaluation of Formulaic Expressions Used in Scholarly
Papers
- arxiv url: http://arxiv.org/abs/2006.10334v1
- Date: Thu, 18 Jun 2020 07:42:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 14:09:08.464552
- Title: Extraction and Evaluation of Formulaic Expressions Used in Scholarly
Papers
- Title(参考訳): 学術論文における公式表現の抽出と評価
- Authors: Kenichi Iwatsuki, Florian Boudin and Akiko Aizawa
- Abstract要約: 本稿では,表現のスパンや形態の変動に頑健な新しい手法を提案する。
コーパス全体から公式表現を抽出する代わりに、各文からそれらを抽出することで、異なる形式を同時に扱うことができる。
- 参考スコア(独自算出の注目度): 41.323367158694495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Formulaic expressions, such as 'in this paper we propose', are helpful for
authors of scholarly papers because they convey communicative functions; in the
above, it is showing the aim of this paper'. Thus, resources of formulaic
expressions, such as a dictionary, that could be looked up easily would be
useful. However, forms of formulaic expressions can often vary to a great
extent. For example, 'in this paper we propose', 'in this study we propose' and
'in this paper we propose a new method to' are all regarded as formulaic
expressions. Such a diversity of spans and forms causes problems in both
extraction and evaluation of formulaic expressions. In this paper, we propose a
new approach that is robust to variation of spans and forms of formulaic
expressions. Our approach regards a sentence as consisting of a formulaic part
and non-formulaic part. Then, instead of trying to extract formulaic
expressions from a whole corpus, by extracting them from each sentence,
different forms can be dealt with at once. Based on this formulation, to avoid
the diversity problem, we propose evaluating extraction methods by how much
they convey specific communicative functions rather than by comparing extracted
expressions to an existing lexicon. We also propose a new extraction method
that utilises named entities and dependency structures to remove the
non-formulaic part from a sentence. Experimental results show that the proposed
extraction method achieved the best performance compared to other existing
methods.
- Abstract(参考訳): この論文で提案する公式表現は、コミュニケーション機能を伝えるため、学術論文の著者にとって有用であり、上述の論文の目的を示している」。
したがって、簡単に調べられる辞書のような公式表現の資源は有用であろう。
しかし、式表現の形式は、しばしば大きく変化する。
例えば,「本論文では提案する」,「本論文では提案する」,「本論文では提案する新しい方法」は全て公式表現とみなされる。
このようなスパンと形式の多様性は、式表現の抽出と評価の両方に問題を引き起こす。
本稿では,表現のスパンや形式の変化に頑健な新しい手法を提案する。
本手法では,文を形式的部分と非形式的部分からなるものとみなす。
すると、コーパス全体から公式表現を抽出する代わりに、各文からそれらを抽出することで、異なる形式を同時に扱うことができる。
この定式化に基づき,多様性問題を回避するために,抽出された表現を既存の語彙と比較するのではなく,特定の伝達関数をどの程度伝達するかによる抽出手法の評価を提案する。
また,文から非形式的部分を取り除くために名前付きエンティティと依存関係構造を利用する新しい抽出手法を提案する。
実験の結果,提案手法は他の既存手法と比較して優れた性能を得た。
関連論文リスト
- ASTE Transformer Modelling Dependencies in Aspect-Sentiment Triplet Extraction [2.07180164747172]
Aspect-Sentiment Triplet extract (ASTE) は、ある文から三重項(アスペクトフレーズ、意見フレーズ、感情極性)を抽出するタスクである。
最近の最先端手法は、まず与えられた文から可能な全てのスパンを抽出することで、このタスクにアプローチする。
論文 参考訳(メタデータ) (2024-09-23T16:49:47Z) - Optimal synthesis embeddings [1.565361244756411]
単語集合に対する公平な埋め込み表現が満足すべきという直感的な考え方に基づく単語埋め込み合成手法を提案する。
本手法は,文の単純な言語的特徴を捉えることを目的とした探索課題の解法に優れていることを示す。
論文 参考訳(メタデータ) (2024-06-10T18:06:33Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Conjunct Resolution in the Face of Verbal Omissions [51.220650412095665]
本稿では,テキスト上で直接動作する接続分解タスクを提案し,コーディネーション構造に欠けている要素を復元するために,分割・言い換えパラダイムを利用する。
クラウドソースアノテーションによる自然に発生する動詞の省略例を10万件以上を含む,大規模なデータセットをキュレートする。
我々は、このタスクのために様々な神経ベースラインをトレーニングし、最良の手法が適切なパフォーマンスを得る一方で、改善のための十分なスペースを残していることを示す。
論文 参考訳(メタデータ) (2023-05-26T08:44:02Z) - Revisiting text decomposition methods for NLI-based factuality scoring
of summaries [9.044665059626958]
細粒度分解が必ずしも事実性スコアの勝利戦略であるとは限らないことを示す。
また,従来提案されていたエンテーメントに基づくスコアリング手法の小さな変更により,性能が向上することを示した。
論文 参考訳(メタデータ) (2022-11-30T09:54:37Z) - A General Contextualized Rewriting Framework for Text Summarization [15.311467109946571]
抽出文は比較的焦点が当てられているが、背景知識や談話の文脈が失われる可能性がある。
コンテントベースのアドレッシングによって抽出文を識別し、グループタグアライメントを施したSeq2seqとしてコンテクスト化された書き直しを形式化する。
その結果,本手法は強化学習を必要とせず,非コンテクスチュアライズされた書き換えシステムよりも優れていた。
論文 参考訳(メタデータ) (2022-07-13T03:55:57Z) - The Return of Lexical Dependencies: Neural Lexicalized PCFGs [103.41187595153652]
語彙化PCFGのニューラルモデルを提案する。
実験により、この統一されたフレームワークは、いずれかの形式主義単独で達成されるよりも、両方の表現に対してより強い結果をもたらすことが示された。
論文 参考訳(メタデータ) (2020-07-29T22:12:49Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - At Which Level Should We Extract? An Empirical Analysis on Extractive
Document Summarization [110.54963847339775]
本研究は,全文を抽出する際,不必要な問題や冗長性が存在することを示す。
選挙区解析木に基づくサブセグメント単位の抽出を提案する。
論文 参考訳(メタデータ) (2020-04-06T13:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。