Fugu-MT 論文翻訳(概要): ShortcutLens: A Visual Analytics Approach for Exploring Shortcuts in Natural Language Understanding Dataset

論文の概要: ShortcutLens: A Visual Analytics Approach for Exploring Shortcuts in Natural Language Understanding Dataset

arxiv url: http://arxiv.org/abs/2208.08010v1
Date: Wed, 17 Aug 2022 01:24:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-18 12:27:27.006293
Title: ShortcutLens: A Visual Analytics Approach for Exploring Shortcuts in Natural Language Understanding Dataset
Title（参考訳）: shortcutlens:自然言語理解データセットのショートカットを探索するビジュアル分析アプローチ
Authors: Zhihua Jin, Xingbo Wang, Furui Cheng, Chunhui Sun, Qun Liu, Huamin Qu
Abstract要約: ShortcutLensは、NLUの専門家がベンチマークデータセットでショートカットを探索するのに役立つビジュアル分析システムである。統計ビューは、ユーザーがベンチマークデータセットでショートカットのカバレッジや生産性などの統計を把握できるようにする。システムの有効性とユーザビリティを評価するために,ケーススタディと専門家インタビューを実施している。
参考スコア（独自算出の注目度）: 42.7808341077646
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Benchmark datasets play an important role in evaluating Natural Language Understanding (NLU) models. However, shortcuts -- unwanted biases in the benchmark datasets -- can damage the effectiveness of benchmark datasets in revealing models' real capabilities. Since shortcuts vary in coverage, productivity, and semantic meaning, it is challenging for NLU experts to systematically understand and avoid them when creating benchmark datasets. In this paper, we develop a visual analytics system, ShortcutLens, to help NLU experts explore shortcuts in NLU benchmark datasets. The system allows users to conduct multi-level exploration of shortcuts. Specifically, Statistics View helps users grasp the statistics such as coverage and productivity of shortcuts in the benchmark dataset. Template View employs hierarchical and interpretable templates to summarize different types of shortcuts. Instance View allows users to check the corresponding instances covered by the shortcuts. We conduct case studies and expert interviews to evaluate the effectiveness and usability of the system. The results demonstrate that ShortcutLens supports users in gaining a better understanding of benchmark dataset issues through shortcuts, inspiring them to create challenging and pertinent benchmark datasets.
Abstract（参考訳）: ベンチマークデータセットは自然言語理解(NLU)モデルを評価する上で重要な役割を果たす。しかし、ショートカット -- ベンチマークデータセットの望ましくないバイアス -- は、モデルの実機能を明らかにする際のベンチマークデータセットの有効性を損なう可能性がある。ショートカットはカバレッジ、生産性、意味において異なるため、NLUの専門家がベンチマークデータセットを作成する際に、それらを体系的に理解し回避することは困難である。本論文では,NLUベンチマークデータセットにおけるショートカットの探索を支援する視覚分析システムであるShortcutLensを開発する。このシステムはショートカットのマルチレベル探索を可能にする。具体的には、statistics viewは、ベンチマークデータセットのショートカットのカバレッジや生産性といった統計情報を把握するのに役立ちます。テンプレートビューは階層的かつ解釈可能なテンプレートを使用して、さまざまなタイプのショートカットを要約する。インスタンスビューは、ショートカットでカバーされた対応するインスタンスをチェックすることができる。システムの有効性とユーザビリティを評価するために,ケーススタディとエキスパートインタビューを実施します。その結果、ShortcutLensはユーザに対して、ショートカットを通じてベンチマークデータセットの問題をよりよく理解することを支援し、困難で関連するベンチマークデータセットを作成するように促している。

関連論文リスト

IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
Genicious: Contextual Few-shot Prompting for Insights Discovery [1.0641453271784744]
Geniciousは、コンテキストの少ないプロンプトを活用するエンドツーエンドツールである。我々は、文脈的に数発のプロンプトを活用するエンドツーエンドツールを開発し、レイテンシ、精度、スケーラビリティの点で優れたパフォーマンスを実現した。
論文参考訳（メタデータ） (2025-03-15T09:27:59Z)
Shortcut Learning Susceptibility in Vision Classifiers [11.599035626374409]
ショートカット学習は、機械学習モデルが意味のある特徴をキャプチャする代わりに、データの急激な相関を利用する場所である。本研究では,クラスラベルと位置と強度の相関関係にあるデータセットに意図的にショートカットを導入する。異なる学習率で学習をショートカットする可能性を評価する。
論文参考訳（メタデータ） (2025-02-13T10:25:52Z)
DSAI: Unbiased and Interpretable Latent Feature Extraction for Data-Centric AI [24.349800949355465]
大規模言語モデル(LLM)は、大きなデータセットの潜在特性を客観的に識別するのにしばしば苦労する。本研究では,非バイアスで解釈可能な特徴抽出を可能にするフレームワークであるData Scientist AI(DSAI)を提案する。
論文参考訳（メタデータ） (2024-12-09T08:47:05Z)
Do LLMs Overcome Shortcut Learning? An Evaluation of Shortcut Challenges in Large Language Models [9.854718405054589]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な機能を示している。本稿では,LLMの性能に及ぼすショートカットの影響を評価するためのテストスイートであるShortcut Suiteを提案する。
論文参考訳（メタデータ） (2024-10-17T08:52:52Z)
Do Text-to-Vis Benchmarks Test Real Use of Visualisations? [11.442971909006657]
本稿では,ベンチマークデータセットと公開リポジトリのコードを比較した実証的研究を通じて,ベンチマークが実世界の利用を反映しているかどうかを考察する。その結果,実世界の実例と同一のチャート型,属性,行動の分布を評価できないという,大きなギャップがあることが判明した。 1つのデータセットは代表的であるが、実用的なエンドツーエンドベンチマークになるには広範囲な修正が必要である。これは、ユーザの視覚的ニーズに本当に対処するシステムの開発をサポートするために、新しいベンチマークが必要であることを示している。
論文参考訳（メタデータ） (2024-07-29T06:13:28Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
Refining Skewed Perceptions in Vision-Language Models through Visual Representations [0.033483662989441935]
大規模視覚言語モデル(VLM)は、様々な下流タスクで顕著な成功を収めている。それらの利点にもかかわらず、これらのモデルは現実のデータの不均等な分布からバイアスを受け継ぎ、実際の環境に関する誤解を招く。本研究では,CLIPの下流アプリケーションへの埋め込みから,単純な線形プローブを用いてタスク固有のコア特徴を効果的に抽出する方法について検討する。
論文参考訳（メタデータ） (2024-05-22T22:03:11Z)
INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文参考訳（メタデータ） (2024-01-12T12:10:28Z)
The Shifted and The Overlooked: A Task-oriented Investigation of User-GPT Interactions [114.67699010359637]
実際のユーザクエリの大規模なコレクションをGPTに解析する。ユーザインタラクションでは'設計'や'計画'といったタスクが一般的だが,従来のNLPベンチマークとは大きく異なる。
論文参考訳（メタデータ） (2023-10-19T02:12:17Z)
LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文参考訳（メタデータ） (2023-08-01T17:50:17Z)
Finding Dataset Shortcuts with Grammar Induction [85.47127659108637]
我々は,NLPデータセットのショートカットの特徴付けと発見に確率文法を用いることを提案する。具体的には、文脈自由文法を用いて文分類データセットのパターンをモデル化し、同期文脈自由文法を用いて文ペアを含むデータセットをモデル化する。その結果得られた文法は、単純かつ高レベルの機能を含む、多くのデータセットで興味深いショートカット機能を示す。
論文参考訳（メタデータ） (2022-10-20T19:54:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。