論文の概要: PoTeC: A German Naturalistic Eye-tracking-while-reading Corpus
- arxiv url: http://arxiv.org/abs/2403.00506v1
- Date: Fri, 1 Mar 2024 13:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:28:18.454279
- Title: PoTeC: A German Naturalistic Eye-tracking-while-reading Corpus
- Title(参考訳): PoTeC:ドイツの自然主義的視線追跡対応コーパス
- Authors: Deborah N. Jakobi and Thomas Kern and David R. Reich and Patrick
Haller and Lena A. J\"ager
- Abstract要約: Potsdam Textbook Corpus(ポツダムテキストブックコーパス、PoTeC)は、自然主義的な視線追跡読影コーパスで、75人の参加者が12の科学テキストを読んでいる。
PoTeCは、ドメインエキスパートからの眼球運動と、参加者内操作の初心者を含む、最初の自然主義的な視線追跡読取コーパスである。
- 参考スコア(独自算出の注目度): 0.5922265448902642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Potsdam Textbook Corpus (PoTeC) is a naturalistic
eye-tracking-while-reading corpus containing data from 75 participants reading
12 scientific texts. PoTeC is the first naturalistic eye-tracking-while-reading
corpus that contains eye-movements from domain-experts as well as novices in a
within-participant manipulation: It is based on a 2x2x2 fully-crossed factorial
design which includes the participants' level of study and the participants'
discipline of study as between-subject factors and the text domain as a
within-subject factor. The participants' reading comprehension was assessed by
a series of text comprehension questions and their domain knowledge was tested
by text-independent background questions for each of the texts. The materials
are annotated for a variety of linguistic features at different levels. We
envision PoTeC to be used for a wide range of studies including but not limited
to analyses of expert and non-expert reading strategies. The corpus and all the
accompanying data at all stages of the preprocessing pipeline and all code used
to preprocess the data are made available via GitHub:
https://github.com/DiLi-Lab/PoTeC.
- Abstract(参考訳): Potsdam Textbook Corpus(ポツダムテキストブックコーパス、PoTeC)は、自然主義的な視線追跡読影コーパスで、75人の参加者が12の科学テキストを読んでいる。
potecは、ドメインの専門家や初心者の目の動きを含む最初の自然主義的なアイトラッキング・ツー・リーディングコーパスであり、参加者の学習レベルと参加者の学習規律を主観的要素として含む2x2x2の完全交叉型因子デザインに基づいている。
参加者の読書理解は一連のテキスト理解質問によって評価され,そのドメイン知識はテキストに依存しない背景質問によって検証された。
資料は様々なレベルで様々な言語的特徴に注釈がつけられている。
我々は,PoTeCを専門家および非専門家の読解戦略の分析に限らず,幅広い研究に活用することを期待している。
プリプロセッシングパイプラインのすべてのステージにおけるコーパスと付随するすべてのデータと、データをプリプロセッシングするために使用されるすべてのコードは、GitHubから入手できる。
関連論文リスト
- EMTeC: A Corpus of Eye Movements on Machine-Generated Texts [2.17025619726098]
The Eye Movements on Machine-Generated Texts Corpus (EMTeC)は、英語母語話者107人が機械生成テキストを読んでいる自然主義的な眼球運動コーパスである。
EMTeCは、前処理の全段階での眼球運動データ、すなわち2000Hzでサンプリングされた生の座標データ、固定シーケンス、読取手段を包含する。
論文 参考訳(メタデータ) (2024-08-08T08:00:45Z) - Interpreting Themes from Educational Stories [9.608135094187912]
本稿では,教育物語の解釈的理解に特化して設計された最初のデータセットを紹介する。
データセットはさまざまなジャンルや文化的な起源にまたがっており、人間に注釈を付けたテーマキーワードを含んでいる。
我々は、物語の主観に向けて解釈的理解の異なる抽象概念の下でNLPタスクを定式化する。
論文 参考訳(メタデータ) (2024-04-08T07:26:27Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Cloning Ideology and Style using Deep Learning [0.0]
研究は、特定の著者のイデオロギーとスタイルに基づくテキスト生成と、過去に同じ著者が書いたものではないトピックに関するテキスト生成に焦点を当てている。
Bi-LSTMモデルを用いて文字レベルでの予測を行う。
事前学習モデルを用いて、著者のコーパスと矛盾する真実の文を識別し、言語モデルを傾斜させる。
論文 参考訳(メタデータ) (2022-10-25T11:37:19Z) - Contextual Text Block Detection towards Scene Text Understanding [85.40898487745272]
本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
論文 参考訳(メタデータ) (2022-07-26T14:59:25Z) - RuArg-2022: Argument Mining Evaluation [69.87149207721035]
本稿は、ロシア語テキストを扱う議論分析システムの最初のコンペティションの主催者の報告である。
新型コロナウイルスの感染拡大に伴う3つの話題について、9,550文(ソーシャルメディア投稿記事)のコーパスを用意した。
両タスクで第一位を獲得したシステムは、BERTアーキテクチャのNLI(Natural Language Inference)変種を使用した。
論文 参考訳(メタデータ) (2022-06-18T17:13:37Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - Quasi Error-free Text Classification and Authorship Recognition in a
large Corpus of English Literature based on a Novel Feature Set [0.0]
GLECの準誤りのないテキスト分類とオーサシップ認識は,同一の5つのスタイルと5つのコンテンツ特徴を用いた手法で可能であることを示す。
我々のデータは、心理学を読むための文学や実験の、多くの未来の計算および実証的研究の道を開く。
論文 参考訳(メタデータ) (2020-10-21T07:39:55Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。