論文の概要: Evaluating Webcam-based Gaze Data as an Alternative for Human Rationale
Annotations
- arxiv url: http://arxiv.org/abs/2402.19133v1
- Date: Thu, 29 Feb 2024 13:09:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 14:58:38.519210
- Title: Evaluating Webcam-based Gaze Data as an Alternative for Human Rationale
Annotations
- Title(参考訳): ヒューマンライナリーアノテーションの代替手段としてのWebカメラを用いた注視データの評価
- Authors: Stephanie Brandl, Oliver Eberle, Tiago Ribeiro, Anders S{\o}gaard,
Nora Hollenstein
- Abstract要約: 我々は、ウェブカメラによる視線追跡記録の形で、重要度を評価する際に有効な選択肢があるかどうかを議論する。
本研究では,視線データから得られる全視線時間,視線エントロピー,復号精度などの付加情報を評価する。
この結果から,視線データは課題の難易度を推定するために活用できる貴重な言語学的洞察を提供する可能性が示唆された。
- 参考スコア(独自算出の注目度): 14.915881495753121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rationales in the form of manually annotated input spans usually serve as
ground truth when evaluating explainability methods in NLP. They are, however,
time-consuming and often biased by the annotation process. In this paper, we
debate whether human gaze, in the form of webcam-based eye-tracking recordings,
poses a valid alternative when evaluating importance scores. We evaluate the
additional information provided by gaze data, such as total reading times, gaze
entropy, and decoding accuracy with respect to human rationale annotations. We
compare WebQAmGaze, a multilingual dataset for information-seeking QA, with
attention and explainability-based importance scores for 4 different
multilingual Transformer-based language models (mBERT, distil-mBERT, XLMR, and
XLMR-L) and 3 languages (English, Spanish, and German). Our pipeline can easily
be applied to other tasks and languages. Our findings suggest that gaze data
offers valuable linguistic insights that could be leveraged to infer task
difficulty and further show a comparable ranking of explainability methods to
that of human rationales.
- Abstract(参考訳): 手動の注釈付き入力スパンの形式における合理性は、通常、nlpで説明可能性法を評価する際に根拠となる。
しかし、それらは時間がかかり、しばしばアノテーションのプロセスに偏っている。
本稿では,ウェブカメラによる視線追跡記録の形で重要度を評価する上で,人間の視線が有効な代替手段であるかどうかを議論する。
本研究では,視線データから得られる全読取時間,視線エントロピー,人間の合理性アノテーションによる復号精度などの付加情報を評価する。
情報検索のための多言語データセットであるWebQAmGazeと、4つの異なる多言語トランスフォーマーベース言語モデル(mBERT, distil-mBERT, XLMR, XLMR-L)と3つの言語(英語,スペイン語,ドイツ語)の注意点と説明可能性に基づく重要度スコアを比較した。
私たちのパイプラインは他のタスクや言語にも簡単に適用できます。
この結果から,視線データは課題の難易度を推定し,人間の有理値に匹敵する説明可能性手法のランク付けに活用できる貴重な言語学的洞察を提供する可能性が示唆された。
関連論文リスト
- A Comparative Analysis of Conversational Large Language Models in
Knowledge-Based Text Generation [5.661396828160973]
本研究では,意味的三重項から自然言語文を生成する際に,対話型大規模言語モデルの実証分析を行う。
我々は、異なるプロンプト技術を用いて、異なる大きさの4つの大きな言語モデルを比較する。
この結果から,三重動詞化における大規模言語モデルの能力は,数発のプロンプト,後処理,効率的な微調整技術によって著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-02-02T15:26:39Z) - BRENT: Bidirectional Retrieval Enhanced Norwegian Transformer [1.911678487931003]
検索ベースの言語モデルは、質問応答タスクにますます採用されている。
我々はREALMフレームワークを適用し,ノルウェー初の検索モデルを開発した。
本研究では,このような学習により,抽出質問応答における読み手のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-04-19T13:40:47Z) - A Comparative Study on Textual Saliency of Styles from Eye Tracking,
Annotations, and Language Models [21.190423578990824]
我々は、スタイリスティックテキストの人間の処理のための視線追跡データセットである eyeStyliency を提示する。
収集したアイデータセットを用いて,テキスト上でのサリエンシスコアを導出する様々な手法を開発した。
視線追跡データはユニークですが、人間のアノテーションとモデルに基づく重要度スコアの両方と交差しています。
論文 参考訳(メタデータ) (2022-12-19T21:50:36Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Saliency Map Verbalization: Comparing Feature Importance Representations
from Model-free and Instruction-based Methods [6.018950511093273]
サージェンシマップは、重要な入力特徴を特定することによって、ニューラルネットワークの予測を説明することができる。
我々は,サリエンシマップを自然言語に翻訳する未調査課題を定式化する。
本研究では,従来の特徴強調表現と比較した2つの新手法(検索ベースおよび命令ベース言語化)を比較した。
論文 参考訳(メタデータ) (2022-10-13T17:48:15Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - RuMedBench: A Russian Medical Language Understanding Benchmark [58.99199480170909]
本稿では,複数のタスクタイプをカバーするオープンなロシア語医療言語理解ベンチマークについて述べる。
我々は、新しいタスクのための統一されたフォーマットラベリング、データ分割、評価メトリクスを作成します。
シングルナンバーメトリックは、ベンチマークに対処するモデルの能力を表す。
論文 参考訳(メタデータ) (2022-01-17T16:23:33Z) - Does Summary Evaluation Survive Translation to Other Languages? [0.0]
既存の英語要約データセット SummEval を4言語に翻訳する。
本研究は,翻訳言語における自動評価指標のスコアと,ソース言語における人間のアノテーションとの相関から分析する。
論文 参考訳(メタデータ) (2021-09-16T17:35:01Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。