論文の概要: It Takes Two to Tango: Navigating Conceptualizations of NLP Tasks and
Measurements of Performance
- arxiv url: http://arxiv.org/abs/2305.09022v1
- Date: Mon, 15 May 2023 21:12:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 17:12:13.388729
- Title: It Takes Two to Tango: Navigating Conceptualizations of NLP Tasks and
Measurements of Performance
- Title(参考訳): Tango: NLPタスクの概念化のナビゲートとパフォーマンスの測定
- Authors: Arjun Subramonian, Xingdi Yuan, Hal Daum\'e III, Su Lin Blodgett
- Abstract要約: 本研究では,タスクの概念化とモデル性能の測定方法の相違点の分類法を開発する。
我々は、NLPタスクがどのように概念化されているかを理解するために、関連する文献のメタ分析を行い、ベンチマークの妥当性に影響を与えるさまざまな要因の印象について実践者の調査を行った。
我々の分類に基づいて、ベンチマークを構築し、それらの制限を文書化するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.609314310655886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Progress in NLP is increasingly measured through benchmarks; hence,
contextualizing progress requires understanding when and why practitioners may
disagree about the validity of benchmarks. We develop a taxonomy of
disagreement, drawing on tools from measurement modeling, and distinguish
between two types of disagreement: 1) how tasks are conceptualized and 2) how
measurements of model performance are operationalized. To provide evidence for
our taxonomy, we conduct a meta-analysis of relevant literature to understand
how NLP tasks are conceptualized, as well as a survey of practitioners about
their impressions of different factors that affect benchmark validity. Our
meta-analysis and survey across eight tasks, ranging from coreference
resolution to question answering, uncover that tasks are generally not clearly
and consistently conceptualized and benchmarks suffer from operationalization
disagreements. These findings support our proposed taxonomy of disagreement.
Finally, based on our taxonomy, we present a framework for constructing
benchmarks and documenting their limitations.
- Abstract(参考訳): NLPの進歩は、ベンチマークを通じてますます測定されるため、文脈化の進展には、いつ、なぜ実践者がベンチマークの有効性について意見が一致しないのかを理解する必要がある。
我々は、不一致の分類を開発し、測定モデルからツールを抽出し、2種類の不一致を区別する。
1)課題概念化の方法と課題
2) モデル性能の測定方法について検討する。
本分類学のエビデンスを提供するため,nlpタスクの概念化の方法を理解するために関連文献のメタ分析を行い,ベンチマーク妥当性に影響を与える因子の印象に関する実践者の調査を行った。
私たちのメタ分析と調査は、コア参照の解決から質問応答まで8つのタスクにわたって行われ、タスクが一般的に明確で一貫した概念化ではなく、ベンチマークが運用上の不一致に悩まされていることを明らかにする。
これらの知見は,提案した異同の分類を裏付けるものである。
最後に,本分類に基づいて,ベンチマークを構築し,その限界を文書化する枠組みを提案する。
関連論文リスト
- Diving Deeper Into Pedestrian Behavior Understanding: Intention Estimation, Action Prediction, and Event Risk Assessment [11.724862656802918]
まず、これらのタスクをJAADとPIEという2つの広く使われている歩行者データセットでどのように表現し、注釈付けするかについて議論する。
これらの定義に基づく新しいベンチマーク、利用可能なアノテーション、および3つの新しいメトリクスクラスを提案し、それぞれがモデル性能の異なる側面を評価するように設計されている。
論文 参考訳(メタデータ) (2024-06-29T14:03:54Z) - FamiCom: Further Demystifying Prompts for Language Models with Task-Agnostic Performance Estimation [73.454943870226]
言語モデルは、コンテキスト内学習能力に優れています。
本稿では,タスク非依存のパフォーマンス推定のためのより包括的な尺度であるFamiComを提案する。
論文 参考訳(メタデータ) (2024-06-17T06:14:55Z) - ECBD: Evidence-Centered Benchmark Design for NLP [95.50252564938417]
ベンチマーク設計プロセスを5つのモジュールに形式化するフレームワークであるEvidence-Centered Benchmark Design (ECBD)を提案する。
各モジュールは、ベンチマーク設計の選択を記述し、正当化し、サポートする必要がある。
分析の結果,ベンチマークの妥当性を脅かす可能性のあるベンチマーク設計とドキュメントの共通する傾向が明らかになった。
論文 参考訳(メタデータ) (2024-06-13T00:59:55Z) - Ontology Completion with Natural Language Inference and Concept Embeddings: An Analysis [26.918368764004796]
本研究では,特定のオントロジーから欠落する有能な知識の発見という課題を,よく研究された分類学拡張タスクの一般化として考察する。
1行の作業は、このタスクを自然言語推論(NLI)問題として扱い、不足した知識を特定するために言語モデルによって取得された知識に依存します。
別の研究の行では、概念埋め込みを使用して、カテゴリベースの帰納のための認知モデルからインスピレーションを得て、異なる概念が共通しているものを特定する。
論文 参考訳(メタデータ) (2024-03-25T21:46:35Z) - Conceptual Engineering Using Large Language Models [0.0]
ウィキデータナレッジグラフから得られたデータを用いて、2つの概念工学プロジェクトに関する規定的定義を評価する。
その結果,本手法を用いて構築した分類手順は,優れた分類性能を示すことがわかった。
我々は、この研究に対して、概念工学の理論と実践の3つの側面に異議を申し立てる。
論文 参考訳(メタデータ) (2023-12-01T01:58:16Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z) - "It's a Match!" -- A Benchmark of Task Affinity Scores for Joint
Learning [74.14961250042629]
MTL(Multi-Task Learning)は、その成功の条件を特徴づけることが、ディープラーニングにおいて依然としてオープンな問題である、と約束する。
共同学習におけるタスク親和性の推定は重要な取り組みである。
最近の研究は、訓練条件自体がMTLの結果に重大な影響を与えることを示唆している。
しかし,本研究では,タスク親和性評価手法の有効性を評価するためのベンチマークが欠落している。
論文 参考訳(メタデータ) (2023-01-07T15:16:35Z) - Towards explainable evaluation of language models on the semantic
similarity of visual concepts [0.0]
本稿では,視覚語彙の意味的類似性に焦点をあて,ハイパフォーマンスな事前学習言語モデルの振る舞いを考察する。
まず、検索したインスタンスの概念的品質を理解するために必要となる、説明可能な評価指標の必要性に対処する。
第二に、健全なクエリセマンティクスに対する敵対的な介入は、不透明なメトリクスの脆弱性を露呈し、学習された言語表現におけるパターンを強調します。
論文 参考訳(メタデータ) (2022-09-08T11:40:57Z) - On the Faithfulness Measurements for Model Interpretations [100.2730234575114]
ポストホックな解釈は、自然言語処理(NLP)モデルがどのように予測を行うかを明らかにすることを目的とする。
これらの問題に取り組むために,我々は,削除基準,解釈の感度,解釈の安定性という3つの基準から始める。
これらの忠実性概念のデシデラタムに動機づけられ、敵対的領域からのテクニックを採用する新しい解釈方法のクラスを導入する。
論文 参考訳(メタデータ) (2021-04-18T09:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。