論文の概要: From stage to page: language independent bootstrap measures of
distinctiveness in fictional speech
- arxiv url: http://arxiv.org/abs/2301.05659v1
- Date: Fri, 13 Jan 2023 16:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 14:36:14.714106
- Title: From stage to page: language independent bootstrap measures of
distinctiveness in fictional speech
- Title(参考訳): ステージからページへ:フィクション音声における特徴性の言語独立型ブートストラップ尺度
- Authors: Artjoms \v{S}e\c{l}a and Ben Nagy and Joanna Byszuk and Laura
Hern\'andez-Lorenzo and Botond Szemes and Maciej Eder
- Abstract要約: 我々は,2つの非パラメトリックな手法を導入,評価し,特徴的特徴量に対する要約統計式を作成する。
我々は5世紀と4つの言語を網羅した2324の著作から3301の文字を分析した。
探索的な分析から、より小さな文字はより独特な傾向にあり、女性は男性よりも言語横断的により独特な傾向にあることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stylometry is mostly applied to authorial style. Recently, researchers have
begun investigating the style of characters, finding that the variation remains
within authorial bounds. We address the stylistic distinctiveness of characters
in drama. Our primary contribution is methodological; we introduce and evaluate
two non-parametric methods to produce a summary statistic for character
distinctiveness that can be usefully applied and compared across languages and
times. Our first method is based on bootstrap distances between 3-gram
probability distributions, the second (reminiscent of 'unmasking' techniques)
on word keyness curves. Both methods are validated and explored by applying
them to a reasonably large corpus (a subset of DraCor): we analyse 3301
characters drawn from 2324 works, covering five centuries and four languages
(French, German, Russian, and the works of Shakespeare). Both methods appear
useful; the 3-gram method is statistically more powerful but the word keyness
method offers rich interpretability. Both methods are able to capture
phonological differences such as accent or dialect, as well as broad
differences in topic and lexical richness. Based on exploratory analysis, we
find that smaller characters tend to be more distinctive, and that women are
cross-linguistically more distinctive than men, with this latter finding
carefully interrogated using multiple regression. This greater distinctiveness
stems from a historical tendency for female characters to be restricted to an
'internal narrative domain' covering mainly direct discourse and
family/romantic themes. It is hoped that direct, comparable statistical
measures will form a basis for more sophisticated future studies, and advances
in theory.
- Abstract(参考訳): ストイロメトリーは主に著者のスタイルに適用される。
近年、研究者はキャラクターのスタイルを調査し始めており、その変化は権威的境界内に留まっている。
我々はドラマの登場人物のスタイル的特徴に対処する。
我々は2つの非パラメトリック手法を導入・評価し,文字識別性のための要約統計を作成し,言語と時間間で有用な適用と比較を行う。
第1の方法は,単語キーネス曲線における3グラム確率分布間のブートストラップ距離に基づく。
どちらの手法も適度に大きなコーパス(ドラコーのサブセット)に適用することで検証され、2324年の作品から3301文字を分析し、5世紀と4つの言語(フランス語、ドイツ語、ロシア語、シェイクスピアの作品)をカバーした。
どちらの手法も有用で、3-gram法は統計的に強力であるが、キーネス法は豊かな解釈性を提供する。
どちらの手法もアクセントや方言などの音韻学的差異を捉えることができ、話題や語彙的豊かさにも大きな違いがある。
探索分析の結果,より小さい文字は男性よりも言語学的に特徴性が高い傾向にあり,後者は複数の回帰を用いて慎重に尋問されていることがわかった。
この大きな特徴は、女性キャラクターが直接の談話や家族・ローマのテーマを主とする「内話領域」に制限されるという歴史的傾向に由来する。
直接的な比較統計指標は、より洗練された将来の研究と理論の進歩の基礎となることが期待されている。
関連論文リスト
- Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - Eyettention: An Attention-based Dual-Sequence Model for Predicting Human
Scanpaths during Reading [3.9766585251585282]
我々は、単語列と時間列の固定を同時に処理する最初の二重系列モデルであるEyettentionを開発する。
スキャンパスの予測において、Eyettentionは最先端のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-21T07:26:49Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Cross-Lingual Speaker Identification Using Distant Supervision [84.51121411280134]
本稿では,文脈推論の欠如や言語間一般化の低さといった問題に対処する話者識別フレームワークを提案する。
その結果,2つの英語話者識別ベンチマークにおいて,従来の最先端手法よりも9%の精度,5%の精度で性能が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-11T20:49:44Z) - Textual Stylistic Variation: Choices, Genres and Individuals [0.8057441774248633]
この章では、テキストコレクションのスタイリスティックな変動の統計処理のためのより情報的なターゲットメトリクスを論じている。
本章ではジャンルごとの変奏について論じ、個々の選択による変奏と対比する。
論文 参考訳(メタデータ) (2022-05-01T16:39:49Z) - Idiosyncratic but not Arbitrary: Learning Idiolects in Online Registers
Reveals Distinctive yet Consistent Individual Styles [7.4037154707453965]
我々は,文体の特徴を特定し,エンコードするために,多人数の著者間比較を通じてイディオレクトを研究するための新しいアプローチを提案する。
ニューラルネットワークは短いテキストの著者識別において高い性能を達成する。
異なる言語要素の相対的寄与と慣用的変動を定量化する。
論文 参考訳(メタデータ) (2021-09-07T15:49:23Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Disambiguatory Signals are Stronger in Word-initial Positions [48.18148856974974]
単語の初期と後期のセグメントの情報を比較するための既存の手法の相違点を指摘する。
何百もの言語にまたがって、言葉で情報を読み込むという言語横断的な傾向があるという証拠が見つかりました。
論文 参考訳(メタデータ) (2021-02-03T18:19:16Z) - Aspectuality Across Genre: A Distributional Semantics Approach [25.816944882581343]
英語における動詞の語彙的側面の解釈は、文的含意を認識し、談話レベルの推論を学ぶ上で重要な役割を担っている。
アスペクト型クラス,状態対イベント,およびテクスチャ対テイリック事象の2つの基本次元を分散意味論で効果的にモデル化できることが示される。
論文 参考訳(メタデータ) (2020-10-31T19:37:22Z) - Pick a Fight or Bite your Tongue: Investigation of Gender Differences in
Idiomatic Language Usage [9.892162266128306]
我々は、話者の性別に注釈を付けた、新しくて大きくて多様な自発言語生成コーパスをコンパイルする。
本研究は,男性と女性におけるテクスト表現言語の使用における区別に関する大規模な実証的研究である。
論文 参考訳(メタデータ) (2020-10-31T18:44:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。