論文の概要: ShortcutLens: A Visual Analytics Approach for Exploring Shortcuts in
Natural Language Understanding Dataset
- arxiv url: http://arxiv.org/abs/2208.08010v1
- Date: Wed, 17 Aug 2022 01:24:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 12:27:27.006293
- Title: ShortcutLens: A Visual Analytics Approach for Exploring Shortcuts in
Natural Language Understanding Dataset
- Title(参考訳): shortcutlens:自然言語理解データセットのショートカットを探索するビジュアル分析アプローチ
- Authors: Zhihua Jin, Xingbo Wang, Furui Cheng, Chunhui Sun, Qun Liu, Huamin Qu
- Abstract要約: ShortcutLensは、NLUの専門家がベンチマークデータセットでショートカットを探索するのに役立つビジュアル分析システムである。
統計ビューは、ユーザーがベンチマークデータセットでショートカットのカバレッジや生産性などの統計を把握できるようにする。
システムの有効性とユーザビリティを評価するために,ケーススタディと専門家インタビューを実施している。
- 参考スコア(独自算出の注目度): 42.7808341077646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmark datasets play an important role in evaluating Natural Language
Understanding (NLU) models. However, shortcuts -- unwanted biases in the
benchmark datasets -- can damage the effectiveness of benchmark datasets in
revealing models' real capabilities. Since shortcuts vary in coverage,
productivity, and semantic meaning, it is challenging for NLU experts to
systematically understand and avoid them when creating benchmark datasets. In
this paper, we develop a visual analytics system, ShortcutLens, to help NLU
experts explore shortcuts in NLU benchmark datasets. The system allows users to
conduct multi-level exploration of shortcuts. Specifically, Statistics View
helps users grasp the statistics such as coverage and productivity of shortcuts
in the benchmark dataset. Template View employs hierarchical and interpretable
templates to summarize different types of shortcuts. Instance View allows users
to check the corresponding instances covered by the shortcuts. We conduct case
studies and expert interviews to evaluate the effectiveness and usability of
the system. The results demonstrate that ShortcutLens supports users in gaining
a better understanding of benchmark dataset issues through shortcuts, inspiring
them to create challenging and pertinent benchmark datasets.
- Abstract(参考訳): ベンチマークデータセットは自然言語理解(NLU)モデルを評価する上で重要な役割を果たす。
しかし、ショートカット -- ベンチマークデータセットの望ましくないバイアス -- は、モデルの実機能を明らかにする際のベンチマークデータセットの有効性を損なう可能性がある。
ショートカットはカバレッジ、生産性、意味において異なるため、NLUの専門家がベンチマークデータセットを作成する際に、それらを体系的に理解し回避することは困難である。
本論文では,NLUベンチマークデータセットにおけるショートカットの探索を支援する視覚分析システムであるShortcutLensを開発する。
このシステムはショートカットのマルチレベル探索を可能にする。
具体的には、statistics viewは、ベンチマークデータセットのショートカットのカバレッジや生産性といった統計情報を把握するのに役立ちます。
テンプレートビューは階層的かつ解釈可能なテンプレートを使用して、さまざまなタイプのショートカットを要約する。
インスタンスビューは、ショートカットでカバーされた対応するインスタンスをチェックすることができる。
システムの有効性とユーザビリティを評価するために,ケーススタディとエキスパートインタビューを実施します。
その結果、ShortcutLensはユーザに対して、ショートカットを通じてベンチマークデータセットの問題をよりよく理解することを支援し、困難で関連するベンチマークデータセットを作成するように促している。
関連論文リスト
- Do LLMs Overcome Shortcut Learning? An Evaluation of Shortcut Challenges in Large Language Models [9.854718405054589]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な機能を示している。
本稿では,LLMの性能に及ぼすショートカットの影響を評価するためのテストスイートであるShortcut Suiteを提案する。
論文 参考訳(メタデータ) (2024-10-17T08:52:52Z) - Do Text-to-Vis Benchmarks Test Real Use of Visualisations? [11.442971909006657]
本稿では,ベンチマークデータセットと公開リポジトリのコードを比較した実証的研究を通じて,ベンチマークが実世界の利用を反映しているかどうかを考察する。
その結果,実世界の実例と同一のチャート型,属性,行動の分布を評価できないという,大きなギャップがあることが判明した。
1つのデータセットは代表的であるが、実用的なエンドツーエンドベンチマークになるには広範囲な修正が必要である。
これは、ユーザの視覚的ニーズに本当に対処するシステムの開発をサポートするために、新しいベンチマークが必要であることを示している。
論文 参考訳(メタデータ) (2024-07-29T06:13:28Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Refining Skewed Perceptions in Vision-Language Models through Visual Representations [0.033483662989441935]
大規模視覚言語モデル(VLM)は、様々な下流タスクで顕著な成功を収めている。
それらの利点にもかかわらず、これらのモデルは現実のデータの不均等な分布からバイアスを受け継ぎ、実際の環境に関する誤解を招く。
本研究では,CLIPの下流アプリケーションへの埋め込みから,単純な線形プローブを用いてタスク固有のコア特徴を効果的に抽出する方法について検討する。
論文 参考訳(メタデータ) (2024-05-22T22:03:11Z) - INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - The Shifted and The Overlooked: A Task-oriented Investigation of
User-GPT Interactions [114.67699010359637]
実際のユーザクエリの大規模なコレクションをGPTに解析する。
ユーザインタラクションでは'設計'や'計画'といったタスクが一般的だが,従来のNLPベンチマークとは大きく異なる。
論文 参考訳(メタデータ) (2023-10-19T02:12:17Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - Finding Dataset Shortcuts with Grammar Induction [85.47127659108637]
我々は,NLPデータセットのショートカットの特徴付けと発見に確率文法を用いることを提案する。
具体的には、文脈自由文法を用いて文分類データセットのパターンをモデル化し、同期文脈自由文法を用いて文ペアを含むデータセットをモデル化する。
その結果得られた文法は、単純かつ高レベルの機能を含む、多くのデータセットで興味深いショートカット機能を示す。
論文 参考訳(メタデータ) (2022-10-20T19:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。