論文の概要: A Comparative Study on Textual Saliency of Styles from Eye Tracking,
Annotations, and Language Models
- arxiv url: http://arxiv.org/abs/2212.09873v2
- Date: Sun, 22 Oct 2023 20:28:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 14:05:14.399226
- Title: A Comparative Study on Textual Saliency of Styles from Eye Tracking,
Annotations, and Language Models
- Title(参考訳): 視線追跡, 注釈, 言語モデルからのスタイルのテクスチュアル・サリエンシに関する比較研究
- Authors: Karin de Langis and Dongyeop Kang
- Abstract要約: 我々は、スタイリスティックテキストの人間の処理のための視線追跡データセットである eyeStyliency を提示する。
収集したアイデータセットを用いて,テキスト上でのサリエンシスコアを導出する様々な手法を開発した。
視線追跡データはユニークですが、人間のアノテーションとモデルに基づく重要度スコアの両方と交差しています。
- 参考スコア(独自算出の注目度): 21.190423578990824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is growing interest in incorporating eye-tracking data and other
implicit measures of human language processing into natural language processing
(NLP) pipelines. The data from human language processing contain unique insight
into human linguistic understanding that could be exploited by language models.
However, many unanswered questions remain about the nature of this data and how
it can best be utilized in downstream NLP tasks. In this paper, we present
eyeStyliency, an eye-tracking dataset for human processing of stylistic text
(e.g., politeness). We develop a variety of methods to derive style saliency
scores over text using the collected eye dataset. We further investigate how
this saliency data compares to both human annotation methods and model-based
interpretability metrics. We find that while eye-tracking data is unique, it
also intersects with both human annotations and model-based importance scores,
providing a possible bridge between human- and machine-based perspectives. We
propose utilizing this type of data to evaluate the cognitive plausibility of
models that interpret style. Our eye-tracking data and processing code are
publicly available.
- Abstract(参考訳): 自然言語処理(NLP)パイプラインに、視線追跡データやその他の人間の言語処理の暗黙測度を取り入れることへの関心が高まっている。
人間の言語処理のデータには、言語モデルによって活用できる人間の言語理解に関するユニークな洞察が含まれている。
しかしながら、このデータの性質や、下流のnlpタスクでどのように活用できるか、多くの未解決の疑問が残っている。
本稿では,スタイリスティックテキスト(丁寧さなど)の人為的処理のためのアイトラッキングデータセットである eyeStyliency を提案する。
収集したアイデータセットを用いて,テキスト上でのサリエンシスコアを導出する様々な手法を開発した。
さらに、このデータと人間のアノテーション手法とモデルに基づく解釈可能性指標を比較した。
視線追跡データはユニークだが、人間のアノテーションとモデルに基づく重要度スコアの両方と交差し、人間と機械の視点を橋渡しする可能性がある。
この種のデータを用いて,スタイルを解釈するモデルの認知的可能性を評価する。
視線追跡データと処理コードは公開されています。
関連論文リスト
- Evaluating Webcam-based Gaze Data as an Alternative for Human Rationale
Annotations [14.915881495753121]
我々は、ウェブカメラによる視線追跡記録の形で、重要度を評価する際に有効な選択肢があるかどうかを議論する。
本研究では,視線データから得られる全視線時間,視線エントロピー,復号精度などの付加情報を評価する。
この結果から,視線データは課題の難易度を推定するために活用できる貴重な言語学的洞察を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2024-02-29T13:09:26Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [53.7168869241458]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Multimodality and Attention Increase Alignment in Natural Language
Prediction Between Humans and Computational Models [0.8139163264824348]
人間は、次の単語の処理を容易にするために、視覚的手がかりのような健全なマルチモーダル機能を使用することが知られている。
マルチモーダル計算モデルは、視覚的注意機構を使用して視覚的および言語的データを統合して、次の単語の確率を割り当てることができる。
本研究では,人間からの予測可能性の推定値が,マルチモーダルモデルと非モーダルモデルとのスコアとより密に一致していることを示す。
論文 参考訳(メタデータ) (2023-08-11T09:30:07Z) - Multi-Scales Data Augmentation Approach In Natural Language Inference
For Artifacts Mitigation And Pre-Trained Model Optimization [0.0]
クラウドソーシングされたStanford Natural Language Inference corpus内でデータセットのアーティファクトを分析し、配置するための様々な技術を提供する。
データセットアーティファクトを緩和するために、2つの異なるフレームワークで独自のマルチスケールデータ拡張技術を採用している。
本手法は, 摂動試験に対するモデルの抵抗性を向上し, トレーニング済みベースラインの連続的な性能向上を可能にする。
論文 参考訳(メタデータ) (2022-12-16T23:37:44Z) - Unsupervised Neural Stylistic Text Generation using Transfer learning
and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。
我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文 参考訳(メタデータ) (2022-10-07T00:09:22Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Multilingual Language Models Predict Human Reading Behavior [8.830621849672108]
言語固有および多言語事前学習トランスフォーマーモデルの性能比較を行い,読解時間尺度の予測を行った。
BERT と XLM のモデルでは,様々な視線追跡特性の予測に成功している。
一連の実験で、これらのモデルのクロスドメインおよびクロス言語能力を分析し、人間の文処理をどのように反映するかを示す。
論文 参考訳(メタデータ) (2021-04-12T13:03:49Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - A Visuospatial Dataset for Naturalistic Verb Learning [18.654373173232205]
基礎言語モデルのトレーニングと評価のための新しいデータセットを導入する。
我々のデータはバーチャルリアリティー環境で収集され、言語データの品質をエミュレートするように設計されている。
収集したデータを用いて、動詞学習のための複数の分布意味論モデルを比較する。
論文 参考訳(メタデータ) (2020-10-28T20:47:13Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。