論文の概要: EMTeC: A Corpus of Eye Movements on Machine-Generated Texts
- arxiv url: http://arxiv.org/abs/2408.04289v1
- Date: Thu, 8 Aug 2024 08:00:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 16:17:56.673251
- Title: EMTeC: A Corpus of Eye Movements on Machine-Generated Texts
- Title(参考訳): EMTeC: 機械生成テキストの眼球運動コーパス
- Authors: Lena Sophia Bolliger, Patrick Haller, Isabelle Caroline Rose Cretton, David Robert Reich, Tannon Kew, Lena Ann Jäger,
- Abstract要約: The Eye Movements on Machine-Generated Texts Corpus (EMTeC)は、英語母語話者107人が機械生成テキストを読んでいる自然主義的な眼球運動コーパスである。
EMTeCは、前処理の全段階での眼球運動データ、すなわち2000Hzでサンプリングされた生の座標データ、固定シーケンス、読取手段を包含する。
- 参考スコア(独自算出の注目度): 2.17025619726098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Eye Movements on Machine-Generated Texts Corpus (EMTeC) is a naturalistic eye-movements-while-reading corpus of 107 native English speakers reading machine-generated texts. The texts are generated by three large language models using five different decoding strategies, and they fall into six different text type categories. EMTeC entails the eye movement data at all stages of pre-processing, i.e., the raw coordinate data sampled at 2000 Hz, the fixation sequences, and the reading measures. It further provides both the original and a corrected version of the fixation sequences, accounting for vertical calibration drift. Moreover, the corpus includes the language models' internals that underlie the generation of the stimulus texts: the transition scores, the attention scores, and the hidden states. The stimuli are annotated for a range of linguistic features both at text and at word level. We anticipate EMTeC to be utilized for a variety of use cases such as, but not restricted to, the investigation of reading behavior on machine-generated text and the impact of different decoding strategies; reading behavior on different text types; the development of new pre-processing, data filtering, and drift correction algorithms; the cognitive interpretability and enhancement of language models; and the assessment of the predictive power of surprisal and entropy for human reading times. The data at all stages of pre-processing, the model internals, and the code to reproduce the stimulus generation, data pre-processing and analyses can be accessed via https://github.com/DiLi-Lab/EMTeC/.
- Abstract(参考訳): The Eye Movements on Machine-Generated Texts Corpus (EMTeC)は、英語母語話者107人が機械生成テキストを読んでいる自然主義的な眼球運動コーパスである。
テキストは5つの異なるデコード戦略を用いて3つの大きな言語モデルによって生成され、6つの異なるテキストタイプカテゴリに分類される。
EMTeCは、前処理の全段階での眼球運動データ、すなわち2000Hzでサンプリングされた生の座標データ、固定シーケンス、読取手段を包含する。
さらに、垂直キャリブレーションドリフトを考慮した固定シーケンスの原版と修正版の両方を提供する。
さらに、コーパスには、トランジションスコア、アテンションスコア、隠れ状態といった刺激テキストを生成する言語モデルの内部が含まれている。
刺激は、テキストおよび単語レベルでの様々な言語的特徴に対して注釈付けされる。
EMTeCは,機械生成テキストにおける読み出し行動の調査や,異なる復号戦略の影響,テキストタイプによる読み出し行動,新しい事前処理,データフィルタリング,ドリフト補正アルゴリズムの開発,言語モデルの認知的解釈可能性と強化,人間の読取時間に対するサブプライサルとエントロピーの予測力の評価など,さまざまなユースケースに利用されることを期待する。
プレプロセス、モデル内部、刺激生成、データ前処理、分析を再現するコードは、https://github.com/DiLi-Lab/EMTeC/を介してアクセスすることができる。
関連論文リスト
- Enhancing Text Generation in Joint NLG/NLU Learning Through Curriculum Learning, Semi-Supervised Training, and Advanced Optimization Techniques [0.0]
本研究では,NLG(Natural Language Generation)とNLU(Natural Language Understanding)の併用によってテキスト生成を改善する手法を開発した。
データは、クリーニング、トークン化、ストーミング、ストップワード削除など、注釈付きデータセットの収集と前処理によって作成される。
トランスフォーマーベースのエンコーダとデコーダ、長距離依存関係のキャプチャ、ソースターゲットシーケンスモデリングの改善。
政策勾配手法による強化学習、半教師付きトレーニング、注意機構の改善、および異なる近似を用いて、モデルを微調整し、複雑な言語タスクを効果的に処理する。
論文 参考訳(メタデータ) (2024-10-17T12:43:49Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - PoTeC: A German Naturalistic Eye-tracking-while-reading Corpus [0.5922265448902642]
Potsdam Textbook Corpus(ポツダムテキストブックコーパス、PoTeC)は、自然主義的な視線追跡読影コーパスで、75人の参加者が12の科学テキストを読んでいる。
PoTeCは、ドメインエキスパートからの眼球運動と、参加者内操作の初心者を含む、最初の自然主義的な視線追跡読取コーパスである。
論文 参考訳(メタデータ) (2024-03-01T13:07:39Z) - ScanDL: A Diffusion Model for Generating Synthetic Scanpaths on Texts [0.5520145204626482]
読書における眼球運動は精神言語研究において重要な役割を担っている。
眼球運動データの不足とアプリケーション時の利用不可能は、この研究のラインにとって大きな課題となっている。
ScanDLはテキスト上で合成スキャンパスを生成する新しい離散シーケンス対シーケンス拡散モデルである。
論文 参考訳(メタデータ) (2023-10-24T07:52:19Z) - Real or Fake Text?: Investigating Human Ability to Detect Boundaries
Between Human-Written and Machine-Generated Text [23.622347443796183]
我々は、テキストが人間の書き起こしから始まり、最先端のニューラルネットワークモデルによって生成されるようになる、より現実的な状況について研究する。
この課題でアノテータはしばしば苦労するが、アノテータのスキルにはかなりのばらつきがあり、適切なインセンティブが与えられると、アノテータは時間とともに改善できることを示す。
論文 参考訳(メタデータ) (2022-12-24T06:40:25Z) - Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation
with Wordless Training [178.09150600453205]
本稿では、ゼロショット学習方式でオフラインのオープン語彙テキスト・トゥ・モーション生成について検討する。
NLPの即時学習にインスパイアされ、マスクされた動きから全動作を再構築する動き生成装置を事前訓練する。
本手法では,入力テキストをマスクした動作に再構成することで,動作生成者の動作を再構築する。
論文 参考訳(メタデータ) (2022-10-28T06:20:55Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。