論文の概要: Text Characterization Toolkit
- arxiv url: http://arxiv.org/abs/2210.01734v1
- Date: Tue, 4 Oct 2022 16:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 13:22:55.841733
- Title: Text Characterization Toolkit
- Title(参考訳): テキストキャラクタリゼーションツールキット
- Authors: Daniel Simig, Tianlu Wang, Verna Dankers, Peter Henderson,
Khuyagbaatar Batsuren, Dieuwke Hupkes, Mona Diab
- Abstract要約: 我々は、新しいモデルやベンチマークを示す際に、より深い結果分析がデファクトスタンダードになるべきだと論じている。
研究者はデータセットの特性とそれらの特性がモデルの振る舞いに与える影響を研究するために利用できるツールを提案する。
- 参考スコア(独自算出の注目度): 33.6713815884553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In NLP, models are usually evaluated by reporting single-number performance
scores on a number of readily available benchmarks, without much deeper
analysis. Here, we argue that - especially given the well-known fact that
benchmarks often contain biases, artefacts, and spurious correlations - deeper
results analysis should become the de-facto standard when presenting new models
or benchmarks. We present a tool that researchers can use to study properties
of the dataset and the influence of those properties on their models'
behaviour. Our Text Characterization Toolkit includes both an easy-to-use
annotation tool, as well as off-the-shelf scripts that can be used for specific
analyses. We also present use-cases from three different domains: we use the
tool to predict what are difficult examples for given well-known trained models
and identify (potentially harmful) biases and heuristics that are present in a
dataset.
- Abstract(参考訳): NLPでは、モデルは通常、より深く分析することなく、利用可能なベンチマークでシングルナンバーのパフォーマンススコアを報告することによって評価される。
ここでは、特に、ベンチマークがバイアス、アーティファクト、および刺激的な相関を含むことがよく知られている事実を考えると、より深い結果分析は、新しいモデルやベンチマークを示す際にデファクト標準となるべきである。
研究者はデータセットの特性とそれらの特性がモデルの振る舞いに与える影響を研究するために利用できるツールを提案する。
私たちのText Characterization Toolkitには、簡単に使えるアノテーションツールと、特定の分析に使用できる既製のスクリプトの両方が含まれています。
私たちはこのツールを使って、よく知られたトレーニングされたモデルに対して難しい例を予測し、データセットに存在する(潜在的に有害な)バイアスとヒューリスティックを特定します。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Numerical Literals in Link Prediction: A Critical Examination of Models and Datasets [2.5999037208435705]
数値リテラルを組み込んだリンク予測モデルは、既存のベンチマークデータセットに対してわずかに改善されている。
モデルが数値リテラルを使用するのに実際に優れているのか、あるいはグラフ構造を利用するのに優れているのかは、不明である。
本稿では,数値リテラルを組み込んだLPモデルの評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-25T17:55:33Z) - Detection and Measurement of Syntactic Templates in Generated Text [58.111650675717414]
モデルにおける一般的な反復を特徴付けるための構文的特徴の解析を行う。
モデルでは、下流のタスクにおいて、人間の参照テキストよりも高いレートでテンプレートテキストを生成する傾向にある。
論文 参考訳(メタデータ) (2024-06-28T19:34:23Z) - Explaining Pre-Trained Language Models with Attribution Scores: An
Analysis in Low-Resource Settings [32.03184402316848]
我々は,素早いモデルから抽出した帰属スコアの妥当性と忠実度を分析した。
プロンプトパラダイムを用いることで、低リソース環境下でモデルを微調整するよりも、より妥当な説明が得られます。
論文 参考訳(メタデータ) (2024-03-08T14:14:37Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Challenging the Myth of Graph Collaborative Filtering: a Reasoned and Reproducibility-driven Analysis [50.972595036856035]
本稿では,6つの人気グラフと最近のグラフ推薦モデルの結果を再現するコードを提案する。
これらのグラフモデルと従来の協調フィルタリングモデルを比較する。
ユーザの近所からの情報フローを調べることにより,データセット構造における内在的特徴にどのようなモデルが影響するかを同定することを目的とする。
論文 参考訳(メタデータ) (2023-08-01T09:31:44Z) - Short Answer Grading Using One-shot Prompting and Text Similarity
Scoring Model [2.14986347364539]
分析スコアと全体スコアの両方を提供する自動短解階調モデルを開発した。
このモデルの精度と2次重み付きカッパは、ASAGデータセットのサブセットである0.67と0.71であった。
論文 参考訳(メタデータ) (2023-05-29T22:05:29Z) - Ordinal time series analysis with the R package otsfeatures [0.0]
R package otsfeatures は順序時系列を解析するための単純な関数のセットを提供しようとする。
いくつかの関数の出力は、クラスタリング、分類、または外れ値検出などの従来の機械学習タスクの実行に使用することができる。
論文 参考訳(メタデータ) (2023-04-24T16:40:27Z) - Finding Dataset Shortcuts with Grammar Induction [85.47127659108637]
我々は,NLPデータセットのショートカットの特徴付けと発見に確率文法を用いることを提案する。
具体的には、文脈自由文法を用いて文分類データセットのパターンをモデル化し、同期文脈自由文法を用いて文ペアを含むデータセットをモデル化する。
その結果得られた文法は、単純かつ高レベルの機能を含む、多くのデータセットで興味深いショートカット機能を示す。
論文 参考訳(メタデータ) (2022-10-20T19:54:11Z) - Assessing Out-of-Domain Language Model Performance from Few Examples [38.245449474937914]
ドメイン外性能(OOD)を数ショットで予測するタスクに対処する。
数ショットの例でモデル精度をみると、このタスクのパフォーマンスをベンチマークする。
帰属に基づく要因がOODの相対モデルの性能のランク付けに有効であることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:45:26Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。