論文の概要: A Novel Corpus of Discourse Structure in Humans and Computers
- arxiv url: http://arxiv.org/abs/2111.05940v1
- Date: Wed, 10 Nov 2021 20:56:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-13 04:34:10.119077
- Title: A Novel Corpus of Discourse Structure in Humans and Computers
- Title(参考訳): 人間とコンピュータにおける談話構造の新しいコーパス
- Authors: Babak Hemmatian, Sheridan Feucht, Rachel Avram, Alexander Wey, Muskaan
Garg, Kate Spitalnic, Carsten Eickhoff, Ellie Pavlick, Bjorn Sandstede,
Steven Sloman
- Abstract要約: 約27,000節からなる445の人文・コンピュータ生成文書からなる新しいコーパスを提示する。
コーパスは、フォーマルな言論と非公式な言論の両方をカバーし、微調整のGPT-2を用いて生成された文書を含んでいる。
- 参考スコア(独自算出の注目度): 55.74664144248097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel corpus of 445 human- and computer-generated documents,
comprising about 27,000 clauses, annotated for semantic clause types and
coherence relations that allow for nuanced comparison of artificial and natural
discourse modes. The corpus covers both formal and informal discourse, and
contains documents generated using fine-tuned GPT-2 (Zellers et al., 2019) and
GPT-3(Brown et al., 2020). We showcase the usefulness of this corpus for
detailed discourse analysis of text generation by providing preliminary
evidence that less numerous, shorter and more often incoherent clause relations
are associated with lower perceived quality of computer-generated narratives
and arguments.
- Abstract(参考訳): 本稿では,意味節タイプとコヒーレンス関係にアノテートされた約27,000節からなる,人間とコンピュータが生成した文書445のコーパスについて述べる。
コーパスは、フォーマルな言論と非公式な言論の両方をカバーし、微調整のGPT-2(Zellers et al., 2019)とGPT-3(Brown et al., 2020)を用いて生成された文書を含んでいる。
本コーパスはテキスト生成の詳細な談話分析に有用であり,コンピュータ生成物語や議論の質の低下に関連していることを示す予備的な証拠を提供することにより,文章生成の詳細な談話分析に有用であることを示す。
関連論文リスト
- The Knesset Corpus: An Annotated Corpus of Hebrew Parliamentary Proceedings [3.2405928866433067]
1998年から2022年までのヘブライの立法手続のコーパスであるコーパス・クネセトを提示する。
コーパスは政治的議論のスタイルにおける歴史的展開を調べるのに有効であることを示す。
また,男性話者と女性話者のスタイルの違いについても検討した。
論文 参考訳(メタデータ) (2024-05-28T12:23:39Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - Synthetically generated text for supervised text analysis [5.71097144710995]
テキスト生成の概念的概要、研究者が合成テキストを生成するための異なるテクニックをいつ選択すべきかに関するガイダンス、倫理に関する議論、および合成テキストの品質向上のための簡単なテクニックを提供する。
本稿では,ウクライナにおける戦闘を記述した合成ツイートの生成,イベント検出システムの訓練のための特定の政治事象を記述した合成ニュース記事,文レベルポピュリズム分類器の訓練のためのポピュリスト宣言文の多言語コーパスの3つの応用例を用いて,合成テキストの有用性を示す。
論文 参考訳(メタデータ) (2023-03-28T14:55:13Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - Discourse Analysis for Evaluating Coherence in Video Paragraph Captions [99.37090317971312]
ビデオ段落のコヒーレンスを評価するための,新しい談話に基づく枠組みを検討中である。
ビデオのコヒーレンスに条件付き段落のコヒーレンスをモデル化する上で,ビデオの談話表現が中心となる。
実験の結果,提案手法は,ビデオ段落のコヒーレンスをベースライン法よりも有意に向上させることがわかった。
論文 参考訳(メタデータ) (2022-01-17T04:23:08Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Persian Rhetorical Structure Theory [2.610470075814367]
我々は、修辞論の枠組みで構築されたペルシア語のための談話注釈コーパスを提示する。
私たちのコーパスは150のジャーナリストのテキストで構成されており、各テキストは平均約400語である。
テキストレベルの談話はゴールドセグメンテーションを用いて訓練されており,DPLP談話バンク上に構築されている。
論文 参考訳(メタデータ) (2021-06-25T18:15:47Z) - Neural Deepfake Detection with Factual Structure of Text [78.30080218908849]
テキストのディープフェイク検出のためのグラフベースモデルを提案する。
我々のアプローチは、ある文書の事実構造をエンティティグラフとして表現する。
本モデルでは,機械生成テキストと人文テキストの事実構造の違いを識別することができる。
論文 参考訳(メタデータ) (2020-10-15T02:35:31Z) - A frame semantics based approach to comparative study of digitized
corpus [0.0]
本論文は, デジタル化小説から作成された英語・アラビア語対応コーパスの形態的, 構文的, 意味的アノテーションプロセスに焦点を当てたものである。
本研究では,言語間での運動事象の概念化の違いを,フレーム構造とフレーム間関係で記述することができることを論じる。
論文 参考訳(メタデータ) (2020-05-29T22:56:25Z) - The Discussion Tracker Corpus of Collaborative Argumentation [2.800857580710507]
ディベート・トラッカー・コーパスはアメリカ高校の英語の授業で収集された。
コーパスは、985分間の音声から書き起こされた英文学に関する29の多党の議論で構成されている。
論文 参考訳(メタデータ) (2020-05-22T18:27:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。