論文の概要: A Dataset for Tracking Entities in Open Domain Procedural Text
- arxiv url: http://arxiv.org/abs/2011.08092v1
- Date: Sat, 31 Oct 2020 02:33:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 04:57:07.570284
- Title: A Dataset for Tracking Entities in Open Domain Procedural Text
- Title(参考訳): オープンドメイン手続きテキストにおけるエンティティ追跡のためのデータセット
- Authors: Niket Tandon, Keisuke Sakaguchi, Bhavana Dalvi Mishra, Dheeraj
Rajagopal, Peter Clark, Michal Guerquin, Kyle Richardson, Eduard Hovy
- Abstract要約: 本稿では、制約のない(オープンな)語彙を用いて、任意のドメインから手続きテキストの変化を追跡するための最初のデータセットを提案する。
大規模データセットはWikiHow.comの810段落から4,050文以上の状態変化29,928件からなる。
- 参考スコア(独自算出の注目度): 33.0784143215586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the first dataset for tracking state changes in procedural text
from arbitrary domains by using an unrestricted (open) vocabulary. For example,
in a text describing fog removal using potatoes, a car window may transition
between being foggy, sticky,opaque, and clear. Previous formulations of this
task provide the text and entities involved,and ask how those entities change
for just a small, pre-defined set of attributes (e.g., location), limiting
their fidelity. Our solution is a new task formulation where given just a
procedural text as input, the task is to generate a set of state change
tuples(entity, at-tribute, before-state, after-state)for each step,where the
entity, attribute, and state values must be predicted from an open vocabulary.
Using crowdsourcing, we create OPENPI1, a high-quality (91.5% coverage as
judged by humans and completely vetted), and large-scale dataset comprising
29,928 state changes over 4,050 sentences from 810 procedural real-world
paragraphs from WikiHow.com. A current state-of-the-art generation model on
this task achieves 16.1% F1 based on BLEU metric, leaving enough room for novel
model architectures.
- Abstract(参考訳): 本稿では,制約のない(オープン)語彙を用いて,任意の領域からの手続きテキストの状態変化を追跡するための最初のデータセットを提案する。
例えば、ジャガイモを使った霧除去を記述したテキストでは、車の窓は霧、粘着性、透明、透明と遷移することがある。
このタスクの以前の定式化は、関連するテキストとエンティティを提供し、それらのエンティティが、小さな事前定義された属性セット(例えば、場所)に対してどのように変化するか尋ねる。
私たちのソリューションは、プロシージャテキストのみを入力として、エンティティ、属性、状態値がオープン語彙から予測されなければならない各ステップに対して、状態変更タプル(entity, at-tribute, before-state, after-state)のセットを生成するという、新しいタスク定式化です。
クラウドソーシングを用いて、高品質なOPENPI1(人間によって判断され、完全に審査された91.5%)と、WikiHow.comの810の手続き的実世界の段落から4,050の文を含む29,928のステートチェンジからなる大規模なデータセットを作成する。
このタスクの現在の最先端生成モデルは、BLEUメトリックに基づいて16.1%のF1を達成する。
関連論文リスト
- TOPFORMER: Topology-Aware Authorship Attribution of Deepfake Texts with Diverse Writing Styles [14.205559299967423]
近年のLarge Language Models (LLM) の進歩により、人間の文章と区別しにくい、オープンエンドの高品質なテキストの生成が可能になった。
悪意のある意図を持つユーザは、これらのオープンソース LLM を使用して、有害なテキストや、大規模な偽情報を生成することができる。
この問題を軽減するために、与えられたテキストがディープフェイクテキストであるか否かを判定する計算方法を提案する。
そこで我々はTopFormerを提案し、より言語的なパターンをディープフェイクテキストに取り込み、既存のAAソリューションを改善する。
論文 参考訳(メタデータ) (2023-09-22T15:32:49Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - OpenPI-C: A Better Benchmark and Stronger Baseline for Open-Vocabulary
State Tracking [55.62705574507595]
OpenPIは、オープン語彙状態トラッキング用に注釈付けされた唯一のデータセットである。
手順レベル,ステップレベル,状態変化レベルの3つの問題を分類する。
評価指標として,クラスタベースの計量法を提案する。
論文 参考訳(メタデータ) (2023-06-01T16:48:20Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Deriving Contextualised Semantic Features from BERT (and Other
Transformer Model) Embeddings [0.0]
本稿では,Binder の特徴が BERT 埋め込み空間から導出可能であることを示す。
コンテキスト化されたBinder埋め込みを提供し、コンテキスト内の単語間の意味的差異を理解するのに役立つ。
さらに、BERTモデルの異なるレイヤ間でセマンティック機能がどのように表現されるかについての洞察も提供する。
論文 参考訳(メタデータ) (2020-12-30T22:52:29Z) - Contextual BERT: Conditioning the Language Model Using a Global State [0.0]
BERTは人気のある言語モデルであり、主要な事前学習タスクは空白を埋めることであり、文から隠された単語を予測することである。
しかし、いくつかのアプリケーションでは、追加のコンテキストを持つことによって、ドメインや書き込みの時間を考慮して、モデルが正しい予測を行うのに役立つ。
これは、固定サイズのコンテキストに条件付けのためのグローバルステートを追加することで、BERTアーキテクチャを前進させる動機となります。
論文 参考訳(メタデータ) (2020-10-29T17:25:20Z) - Procedural Reading Comprehension with Attribute-Aware Context Flow [85.34405161075276]
手続き的なテキストは、しばしばエンティティの上で起こるプロセスを記述する。
本稿では,テキストを一般的な形式に翻訳することで,手続き的読解のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-31T00:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。