論文の概要: ScanDL: A Diffusion Model for Generating Synthetic Scanpaths on Texts
- arxiv url: http://arxiv.org/abs/2310.15587v1
- Date: Tue, 24 Oct 2023 07:52:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 20:01:24.242966
- Title: ScanDL: A Diffusion Model for Generating Synthetic Scanpaths on Texts
- Title(参考訳): ScanDL:テキストによる合成スキャンパス生成のための拡散モデル
- Authors: Lena S. Bolliger, David R. Reich, Patrick Haller, Deborah N. Jakobi,
Paul Prasse, Lena A. J\"ager
- Abstract要約: 読書における眼球運動は精神言語研究において重要な役割を担っている。
眼球運動データの不足とアプリケーション時の利用不可能は、この研究のラインにとって大きな課題となっている。
ScanDLはテキスト上で合成スキャンパスを生成する新しい離散シーケンス対シーケンス拡散モデルである。
- 参考スコア(独自算出の注目度): 0.5520145204626482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Eye movements in reading play a crucial role in psycholinguistic research
studying the cognitive mechanisms underlying human language processing. More
recently, the tight coupling between eye movements and cognition has also been
leveraged for language-related machine learning tasks such as the
interpretability, enhancement, and pre-training of language models, as well as
the inference of reader- and text-specific properties. However, scarcity of eye
movement data and its unavailability at application time poses a major
challenge for this line of research. Initially, this problem was tackled by
resorting to cognitive models for synthesizing eye movement data. However, for
the sole purpose of generating human-like scanpaths, purely data-driven
machine-learning-based methods have proven to be more suitable. Following
recent advances in adapting diffusion processes to discrete data, we propose
ScanDL, a novel discrete sequence-to-sequence diffusion model that generates
synthetic scanpaths on texts. By leveraging pre-trained word representations
and jointly embedding both the stimulus text and the fixation sequence, our
model captures multi-modal interactions between the two inputs. We evaluate
ScanDL within- and across-dataset and demonstrate that it significantly
outperforms state-of-the-art scanpath generation methods. Finally, we provide
an extensive psycholinguistic analysis that underlines the model's ability to
exhibit human-like reading behavior. Our implementation is made available at
https://github.com/DiLi-Lab/ScanDL.
- Abstract(参考訳): 読書における眼球運動は、人間の言語処理の基礎となる認知メカニズムの研究において重要な役割を担っている。
近年,目の動きと認知の密結合は,言語モデルの解釈可能性,拡張性,事前学習といった言語関連機械学習タスクや,読み手やテキスト特有の特性の推論にも活用されている。
しかし、眼球運動データの不足とアプリケーション時の利用不可は、この研究のラインにとって大きな課題となっている。
当初は、眼球運動データを合成するための認知モデルを用いてこの問題に対処した。
しかし、人間のようなスキャンパスを生成する唯一の目的として、純粋にデータ駆動型機械学習ベースの手法の方が適していることが証明されている。
近年の拡散過程を離散データに適用する進歩に続いて,テキスト上で合成スキャンパスを生成する新しい離散シーケンス-シーケンス間拡散モデルであるscandlを提案する。
事前学習した単語表現を活用し、刺激テキストと固定シーケンスを併用することにより、2つの入力間のマルチモーダル相互作用を捉える。
本研究では,データセット内のscandlを評価し,最先端のscanpath生成法を著しく上回っていることを示す。
最後に、モデルが人間的な読書行動を示す能力の基盤となる広範な心理言語学的分析を提供する。
実装はhttps://github.com/dili-lab/scandlで利用可能です。
関連論文リスト
- Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Neural Sign Actors: A diffusion model for 3D sign language production from text [51.81647203840081]
手話 (SL) は難聴者および難聴者コミュニティの主要なコミュニケーション手段である。
この研究は、現実的なニューラルサインアバターに向けて重要な一歩を踏み出し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - Pre-Trained Language Models Augmented with Synthetic Scanpaths for
Natural Language Understanding [3.6498648388765513]
我々は,合成スカンパス生成とスカンパス拡張言語モデルを統合するモデルを開発した。
提案手法は,基礎となる言語モデルより優れるだけでなく,実際の人間の視線データを付加した言語モデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2023-10-23T08:15:38Z) - Eyettention: An Attention-based Dual-Sequence Model for Predicting Human
Scanpaths during Reading [3.9766585251585282]
我々は、単語列と時間列の固定を同時に処理する最初の二重系列モデルであるEyettentionを開発する。
スキャンパスの予測において、Eyettentionは最先端のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-21T07:26:49Z) - Synthesizing Human Gaze Feedback for Improved NLP Performance [20.837790838762036]
ScanTextGANは、テキスト上で人間のスキャンパスを生成するための新しいモデルである。
ScanTextGANにより生成されたスキャンパスは、人間の視線パターンにおいて有意な認知信号に近似できることを示す。
論文 参考訳(メタデータ) (2023-02-11T15:34:23Z) - Synthetic Pre-Training Tasks for Neural Machine Translation [16.6378815054841]
我々のゴールは、合成資源を使用する場合の事前学習モデルの有効性に寄与する要因を理解することである。
本稿では,語彙的および構造的知識のレベルが異なる事前学習型翻訳モデルを提案する。
複数の言語ペアに対する実験により,高レベルの難読化や純粋に合成された並列データであっても,事前学習のメリットが実現できることが明らかになった。
論文 参考訳(メタデータ) (2022-12-19T21:34:00Z) - Pretraining on Interactions for Learning Grounded Affordance
Representations [22.290431852705662]
我々はニューラルネットワークを訓練し、シミュレーションされた相互作用において物体の軌道を予測する。
我々のネットワークの潜在表現は、観測された価格と観測されていない価格の両方を区別していることが示される。
提案する手法は,従来の語彙表現の形式的意味概念と統合可能な言語学習の手法である。
論文 参考訳(メタデータ) (2022-07-05T19:19:53Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Neural Deepfake Detection with Factual Structure of Text [78.30080218908849]
テキストのディープフェイク検出のためのグラフベースモデルを提案する。
我々のアプローチは、ある文書の事実構造をエンティティグラフとして表現する。
本モデルでは,機械生成テキストと人文テキストの事実構造の違いを識別することができる。
論文 参考訳(メタデータ) (2020-10-15T02:35:31Z) - Temporal Embeddings and Transformer Models for Narrative Text
Understanding [72.88083067388155]
キャラクタ関係モデリングのための物語テキスト理解のための2つのアプローチを提案する。
これらの関係の時間的進化は動的単語埋め込みによって説明され、時間とともに意味的変化を学ぶように設計されている。
最新の変換器モデルBERTに基づく教師付き学習手法を用いて文字間の静的な関係を検出する。
論文 参考訳(メタデータ) (2020-03-19T14:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。