論文の概要: A Comparative Study on Textual Saliency of Styles from Eye Tracking,
Annotations, and Language Models
- arxiv url: http://arxiv.org/abs/2212.09873v2
- Date: Sun, 22 Oct 2023 20:28:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 14:05:14.399226
- Title: A Comparative Study on Textual Saliency of Styles from Eye Tracking,
Annotations, and Language Models
- Title(参考訳): 視線追跡, 注釈, 言語モデルからのスタイルのテクスチュアル・サリエンシに関する比較研究
- Authors: Karin de Langis and Dongyeop Kang
- Abstract要約: 我々は、スタイリスティックテキストの人間の処理のための視線追跡データセットである eyeStyliency を提示する。
収集したアイデータセットを用いて,テキスト上でのサリエンシスコアを導出する様々な手法を開発した。
視線追跡データはユニークですが、人間のアノテーションとモデルに基づく重要度スコアの両方と交差しています。
- 参考スコア(独自算出の注目度): 21.190423578990824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is growing interest in incorporating eye-tracking data and other
implicit measures of human language processing into natural language processing
(NLP) pipelines. The data from human language processing contain unique insight
into human linguistic understanding that could be exploited by language models.
However, many unanswered questions remain about the nature of this data and how
it can best be utilized in downstream NLP tasks. In this paper, we present
eyeStyliency, an eye-tracking dataset for human processing of stylistic text
(e.g., politeness). We develop a variety of methods to derive style saliency
scores over text using the collected eye dataset. We further investigate how
this saliency data compares to both human annotation methods and model-based
interpretability metrics. We find that while eye-tracking data is unique, it
also intersects with both human annotations and model-based importance scores,
providing a possible bridge between human- and machine-based perspectives. We
propose utilizing this type of data to evaluate the cognitive plausibility of
models that interpret style. Our eye-tracking data and processing code are
publicly available.
- Abstract(参考訳): 自然言語処理(NLP)パイプラインに、視線追跡データやその他の人間の言語処理の暗黙測度を取り入れることへの関心が高まっている。
人間の言語処理のデータには、言語モデルによって活用できる人間の言語理解に関するユニークな洞察が含まれている。
しかしながら、このデータの性質や、下流のnlpタスクでどのように活用できるか、多くの未解決の疑問が残っている。
本稿では,スタイリスティックテキスト(丁寧さなど)の人為的処理のためのアイトラッキングデータセットである eyeStyliency を提案する。
収集したアイデータセットを用いて,テキスト上でのサリエンシスコアを導出する様々な手法を開発した。
さらに、このデータと人間のアノテーション手法とモデルに基づく解釈可能性指標を比較した。
視線追跡データはユニークだが、人間のアノテーションとモデルに基づく重要度スコアの両方と交差し、人間と機械の視点を橋渡しする可能性がある。
この種のデータを用いて,スタイルを解釈するモデルの認知的可能性を評価する。
視線追跡データと処理コードは公開されています。
関連論文リスト
- Reverse-Engineering the Reader [43.26660964074272]
本稿では,線形回帰器のパラメータを暗黙的に最適化するために,言語モデルを微調整する新しいアライメント手法を提案する。
単語をテストケースとして使用し、複数のモデルサイズとデータセットにわたる手法を評価する。
ダウンストリームNLPタスクにおける心理測定パワーとモデルの性能の逆関係と、ホールドアウトテストデータにおけるその難易度を見出した。
論文 参考訳(メタデータ) (2024-10-16T23:05:01Z) - Evaluating Webcam-based Gaze Data as an Alternative for Human Rationale
Annotations [14.915881495753121]
我々は、ウェブカメラによる視線追跡記録の形で、重要度を評価する際に有効な選択肢があるかどうかを議論する。
本研究では,視線データから得られる全視線時間,視線エントロピー,復号精度などの付加情報を評価する。
この結果から,視線データは課題の難易度を推定するために活用できる貴重な言語学的洞察を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2024-02-29T13:09:26Z) - Few-Shot Detection of Machine-Generated Text using Style Representations [4.326503887981912]
人間の文章を巧みに模倣する言語モデルは、虐待のかなりのリスクを負う。
そこで本研究では,人間が作成したテキストから推定した書体スタイルの表現を活用することを提案する。
また,人間と機械作家の区別にも有効であることがわかった。
論文 参考訳(メタデータ) (2024-01-12T17:26:51Z) - Multimodality and Attention Increase Alignment in Natural Language
Prediction Between Humans and Computational Models [0.8139163264824348]
人間は、次の単語の処理を容易にするために、視覚的手がかりのような健全なマルチモーダル機能を使用することが知られている。
マルチモーダル計算モデルは、視覚的注意機構を使用して視覚的および言語的データを統合して、次の単語の確率を割り当てることができる。
本研究では,人間からの予測可能性の推定値が,マルチモーダルモデルと非モーダルモデルとのスコアとより密に一致していることを示す。
論文 参考訳(メタデータ) (2023-08-11T09:30:07Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Unsupervised Neural Stylistic Text Generation using Transfer learning
and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。
我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文 参考訳(メタデータ) (2022-10-07T00:09:22Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Multilingual Language Models Predict Human Reading Behavior [8.830621849672108]
言語固有および多言語事前学習トランスフォーマーモデルの性能比較を行い,読解時間尺度の予測を行った。
BERT と XLM のモデルでは,様々な視線追跡特性の予測に成功している。
一連の実験で、これらのモデルのクロスドメインおよびクロス言語能力を分析し、人間の文処理をどのように反映するかを示す。
論文 参考訳(メタデータ) (2021-04-12T13:03:49Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。