論文の概要: Eye-Tracking-while-Reading: A Living Survey of Datasets with Open Library Support
- arxiv url: http://arxiv.org/abs/2602.19598v1
- Date: Mon, 23 Feb 2026 08:40:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.7298
- Title: Eye-Tracking-while-Reading: A Living Survey of Datasets with Open Library Support
- Title(参考訳): 視線追跡読解:オープンライブラリによるデータセットのリビングサーベイ
- Authors: Deborah N. Jakobi, David R. Reich, Paul Prasse, Jana M. Hofmann, Lena S. Bolliger, Lena A. Jäger,
- Abstract要約: 視線追跡時コーパスは多くの異なる分野において貴重な資源である。
既存のデータセットに関して、透明性と明確性の向上を目指しています。
- 参考スコア(独自算出の注目度): 5.162965495020878
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Eye-tracking-while-reading corpora are a valuable resource for many different disciplines and use cases. Use cases range from studying the cognitive processes underlying reading to machine-learning-based applications, such as gaze-based assessments of reading comprehension. The past decades have seen an increase in the number and size of eye-tracking-while-reading datasets as well as increasing diversity with regard to the stimulus languages covered, the linguistic background of the participants, or accompanying psychometric or demographic data. The spread of data across different disciplines and the lack of data sharing standards across the communities lead to many existing datasets that cannot be easily reused due to a lack of interoperability. In this work, we aim at creating more transparency and clarity with regards to existing datasets and their features across different disciplines by i) presenting an extensive overview of existing datasets, ii) simplifying the sharing of newly created datasets by publishing a living overview online, https://dili-lab.github.io/datasets.html, presenting over 45 features for each dataset, and iii) integrating all publicly available datasets into the Python package pymovements which offers an eye-tracking datasets library. By doing so, we aim to strengthen the FAIR principles in eye-tracking-while-reading research and promote good scientific practices, such as reproducing and replicating studies.
- Abstract(参考訳): 視線追跡時コーパスは多くの異なる分野やユースケースにおいて貴重な資源である。
ユースケースは、読書の基礎となる認知プロセスの研究から、読書理解の視線に基づく評価など、機械学習ベースのアプリケーションまで様々である。
過去数十年間、視線追跡時読影データセットの数とサイズが増加し、また、カバーされている刺激言語、参加者の言語的背景、あるいはサイコメトリックまたは人口統計データを伴って、多様性が増している。
異なる分野にまたがるデータの拡散と、コミュニティにまたがるデータ共有標準の欠如は、相互運用性の欠如により容易に再利用できない多くの既存のデータセットにつながります。
本研究は,既存のデータセットとその特徴を,さまざまな分野にまたがって,透明性と明確性を高めることを目的としている。
一 既存のデータセットの広範な概要を提示すること。
ii) リビング概要をオンラインで公開することで、新しく作成されたデータセットの共有を簡素化する。https://dili-lab.github.io/datasets.html。
iii)すべての公開データセットをPythonパッケージpymovementsに統合し、アイトラッキングデータセットライブラリを提供する。
そこで我々は、視線追跡読影研究におけるFAIRの原則を強化し、研究の再現や複製といった優れた科学的実践を促進することを目的とする。
関連論文リスト
- OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - Making Sense of Data in the Wild: Data Analysis Automation at Scale [0.1747623282473278]
本稿では,インテリジェントエージェントと検索拡張生成を組み合わせることで,データ解析,データセットキュレーション,インデックス作成を大規模に自動化する手法を提案する。
提案手法により,より詳細なデータセット記述,より高いヒット率,データセット検索タスクの多様性が得られた。
論文 参考訳(メタデータ) (2025-01-27T10:04:10Z) - Understanding Bias in Large-Scale Visual Datasets [5.042580324425314]
本稿では,大規模視覚データセットを識別するユニークな視覚属性を識別するフレームワークを提案する。
提案手法では, 意味, 構造, 境界, 色, 周波数情報を抽出する。
各データセットの特徴について、詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2024-12-02T18:56:52Z) - Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T14:13:24Z) - Reporting Eye-Tracking Data Quality: Towards a New Standard [1.2958449178903728]
この研究は、視線追跡データを共有する新しいアプローチを提唱する。
フィルタリングされたデータセットや前処理されたデータセットを公開する代わりに、すべての前処理段階におけるアイトラッキングデータは、データ品質レポートとともに公開する必要がある。
データ品質を透過的に報告し、データセット間比較を可能にするため、データセットに自動的に適用可能なデータ品質報告標準とメトリクスを開発し、それらをオープンソースのPythonパッケージpymovementsに統合する。
論文 参考訳(メタデータ) (2024-03-31T09:17:34Z) - Learning Representations without Compositional Assumptions [79.12273403390311]
本稿では,特徴集合をグラフノードとして表現し,それらの関係を学習可能なエッジとして表現することで,特徴集合の依存関係を学習するデータ駆動型アプローチを提案する。
また,複数のビューから情報を動的に集約するために,より小さな潜在グラフを学習する新しい階層グラフオートエンコーダLEGATOを導入する。
論文 参考訳(メタデータ) (2023-05-31T10:36:10Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - On The State of Data In Computer Vision: Human Annotations Remain
Indispensable for Developing Deep Learning Models [0.0]
高品質ラベル付きデータセットは機械学習(ML)の発展に重要な役割を果たす
2012年にImageNetデータセットとAlexNetモデルが登場して以来、新しいオープンソースのラベル付きビジョンデータセットのサイズはほぼ一定である。
コンピュータビジョンコミュニティの少数の出版物は、Imagenetよりも桁違いの大きさのデータセットの教師付き学習に取り組む。
論文 参考訳(メタデータ) (2021-07-31T00:08:21Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。