論文の概要: The Copenhagen Corpus of Eye Tracking Recordings from Natural Reading of
Danish Texts
- arxiv url: http://arxiv.org/abs/2204.13311v1
- Date: Thu, 28 Apr 2022 07:13:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 13:23:17.189574
- Title: The Copenhagen Corpus of Eye Tracking Recordings from Natural Reading of
Danish Texts
- Title(参考訳): デンマーク語テキストの自然読みからの視線追跡記録のコペンハーゲンコーパス
- Authors: Nora Hollenstein, Maria Barrett, Marina Bj\"ornsd\'ottir
- Abstract要約: 我々はコペンハーゲンコーパスであるCopCoを紹介した。
CopCoには1,832通の文章と34,897通のデンマーク語のテキストが含まれている。
他のジャンルの参加者やテキストを増やそうとしている。
- 参考スコア(独自算出の注目度): 8.673635963837532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Eye movement recordings from reading are one of the richest signals of human
language processing. Corpora of eye movements during reading of contextualized
running text is a way of making such records available for natural language
processing purposes. Such corpora already exist in some languages. We present
CopCo, the Copenhagen Corpus of eye tracking recordings from natural reading of
Danish texts. It is the first eye tracking corpus of its kind for the Danish
language. CopCo includes 1,832 sentences with 34,897 tokens of Danish text
extracted from a collection of speech manuscripts. This first release of the
corpus contains eye tracking data from 22 participants. It will be extended
continuously with more participants and texts from other genres. We assess the
data quality of the recorded eye movements and find that the extracted features
are in line with related research. The dataset available here:
https://osf.io/ud8s5/.
- Abstract(参考訳): 読書からの眼球運動記録は、人間の言語処理の最も豊かな信号の1つである。
文脈化された実行中のテキストを読む際の眼球運動のコーパスは、自然言語処理のためにそのようなレコードを利用できる方法である。
このようなコーパスはすでにいくつかの言語に存在している。
本稿では,コペンハーゲンのコペンハーゲン・コーパスであるcopcoについて述べる。
デンマーク語で最初の視線追跡コーパスである。
CopCoには1,832通の文章と34,897通のデンマーク語のテキストが含まれている。
このコーパスの最初のリリースには、22人の参加者による視線追跡データが含まれている。
他のジャンルの参加者やテキストも増えていく予定だ。
記録された眼球運動のデータ品質を評価し,抽出された特徴が関連する研究と一致していることを見出す。
ここで利用可能なデータセットは、https://osf.io/ud8s5/。
関連論文リスト
- KhmerST: A Low-Resource Khmer Scene Text Detection and Recognition Benchmark [1.5409800688911346]
我々は,1,544人の専門家による注釈付き画像を含む,最初のKhmerシーンテキストデータセットを紹介した。
この多様なデータセットには、平らなテキスト、起立したテキスト、照度の低いテキスト、遠くのポリゴン、部分的に不明瞭なテキストが含まれる。
論文 参考訳(メタデータ) (2024-10-23T21:04:24Z) - EMTeC: A Corpus of Eye Movements on Machine-Generated Texts [2.17025619726098]
The Eye Movements on Machine-Generated Texts Corpus (EMTeC)は、英語母語話者107人が機械生成テキストを読んでいる自然主義的な眼球運動コーパスである。
EMTeCは、前処理の全段階での眼球運動データ、すなわち2000Hzでサンプリングされた生の座標データ、固定シーケンス、読取手段を包含する。
論文 参考訳(メタデータ) (2024-08-08T08:00:45Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - PoTeC: A German Naturalistic Eye-tracking-while-reading Corpus [0.5922265448902642]
Potsdam Textbook Corpus(ポツダムテキストブックコーパス、PoTeC)は、自然主義的な視線追跡読影コーパスで、75人の参加者が12の科学テキストを読んでいる。
PoTeCは、ドメインエキスパートからの眼球運動と、参加者内操作の初心者を含む、最初の自然主義的な視線追跡読取コーパスである。
論文 参考訳(メタデータ) (2024-03-01T13:07:39Z) - WebQAmGaze: A Multilingual Webcam Eye-Tracking-While-Reading Dataset [42.431350136679704]
WebQAmGazeは、多言語で低コストなアイトラッキング対応データセットである。
WebQAmGazeには、英語、ドイツ語、スペイン語、トルコ語のテキストを自然に読む幅広い年齢層の600人の参加者によるWebカメラによるアイトラッキングデータが含まれている。
論文 参考訳(メタデータ) (2023-03-31T08:18:30Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - EMMT: A simultaneous eye-tracking, 4-electrode EEG and audio corpus for
multi-modal reading and translation scenarios [0.0]
Eyetracked Multi-Modal Translation (EMMT) コーパスは、43人の眼球運動記録、音声、および4電極脳波(EEG)データを含むデータセットである。
目的は、英語からチェコ語への翻訳において、多くの言語集約的なタスクに携わる参加者の反応として認知信号を収集することであった。
論文 参考訳(メタデータ) (2022-04-06T15:47:55Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。