論文の概要: It Takes Two to Tango: Navigating Conceptualizations of NLP Tasks and
Measurements of Performance
- arxiv url: http://arxiv.org/abs/2305.09022v1
- Date: Mon, 15 May 2023 21:12:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 17:12:13.388729
- Title: It Takes Two to Tango: Navigating Conceptualizations of NLP Tasks and
Measurements of Performance
- Title(参考訳): Tango: NLPタスクの概念化のナビゲートとパフォーマンスの測定
- Authors: Arjun Subramonian, Xingdi Yuan, Hal Daum\'e III, Su Lin Blodgett
- Abstract要約: 本研究では,タスクの概念化とモデル性能の測定方法の相違点の分類法を開発する。
我々は、NLPタスクがどのように概念化されているかを理解するために、関連する文献のメタ分析を行い、ベンチマークの妥当性に影響を与えるさまざまな要因の印象について実践者の調査を行った。
我々の分類に基づいて、ベンチマークを構築し、それらの制限を文書化するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.609314310655886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Progress in NLP is increasingly measured through benchmarks; hence,
contextualizing progress requires understanding when and why practitioners may
disagree about the validity of benchmarks. We develop a taxonomy of
disagreement, drawing on tools from measurement modeling, and distinguish
between two types of disagreement: 1) how tasks are conceptualized and 2) how
measurements of model performance are operationalized. To provide evidence for
our taxonomy, we conduct a meta-analysis of relevant literature to understand
how NLP tasks are conceptualized, as well as a survey of practitioners about
their impressions of different factors that affect benchmark validity. Our
meta-analysis and survey across eight tasks, ranging from coreference
resolution to question answering, uncover that tasks are generally not clearly
and consistently conceptualized and benchmarks suffer from operationalization
disagreements. These findings support our proposed taxonomy of disagreement.
Finally, based on our taxonomy, we present a framework for constructing
benchmarks and documenting their limitations.
- Abstract(参考訳): NLPの進歩は、ベンチマークを通じてますます測定されるため、文脈化の進展には、いつ、なぜ実践者がベンチマークの有効性について意見が一致しないのかを理解する必要がある。
我々は、不一致の分類を開発し、測定モデルからツールを抽出し、2種類の不一致を区別する。
1)課題概念化の方法と課題
2) モデル性能の測定方法について検討する。
本分類学のエビデンスを提供するため,nlpタスクの概念化の方法を理解するために関連文献のメタ分析を行い,ベンチマーク妥当性に影響を与える因子の印象に関する実践者の調査を行った。
私たちのメタ分析と調査は、コア参照の解決から質問応答まで8つのタスクにわたって行われ、タスクが一般的に明確で一貫した概念化ではなく、ベンチマークが運用上の不一致に悩まされていることを明らかにする。
これらの知見は,提案した異同の分類を裏付けるものである。
最後に,本分類に基づいて,ベンチマークを構築し,その限界を文書化する枠組みを提案する。
関連論文リスト
- Ontology Completion with Natural Language Inference and Concept Embeddings: An Analysis [26.918368764004796]
本研究では,特定のオントロジーから欠落する有能な知識の発見という課題を,よく研究された分類学拡張タスクの一般化として考察する。
1行の作業は、このタスクを自然言語推論(NLI)問題として扱い、不足した知識を特定するために言語モデルによって取得された知識に依存します。
別の研究の行では、概念埋め込みを使用して、カテゴリベースの帰納のための認知モデルからインスピレーションを得て、異なる概念が共通しているものを特定する。
論文 参考訳(メタデータ) (2024-03-25T21:46:35Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z) - "It's a Match!" -- A Benchmark of Task Affinity Scores for Joint
Learning [74.14961250042629]
MTL(Multi-Task Learning)は、その成功の条件を特徴づけることが、ディープラーニングにおいて依然としてオープンな問題である、と約束する。
共同学習におけるタスク親和性の推定は重要な取り組みである。
最近の研究は、訓練条件自体がMTLの結果に重大な影響を与えることを示唆している。
しかし,本研究では,タスク親和性評価手法の有効性を評価するためのベンチマークが欠落している。
論文 参考訳(メタデータ) (2023-01-07T15:16:35Z) - OPT-IML: Scaling Language Model Instruction Meta Learning through the
Lens of Generalization [101.37439352091612]
モデルサイズとベンチマークサイズの両方をスケールする際のダウンストリームタスク性能に対する命令チューニング決定の影響について述べる。
我々は、OPT-30Bに適用された命令調整決定に関する知見を提示し、さらにこれらの知見を活用して、OPTの命令調整版であるOPT-IML 30Bと175Bを訓練する。
論文 参考訳(メタデータ) (2022-12-22T19:56:09Z) - Towards explainable evaluation of language models on the semantic
similarity of visual concepts [0.0]
本稿では,視覚語彙の意味的類似性に焦点をあて,ハイパフォーマンスな事前学習言語モデルの振る舞いを考察する。
まず、検索したインスタンスの概念的品質を理解するために必要となる、説明可能な評価指標の必要性に対処する。
第二に、健全なクエリセマンティクスに対する敵対的な介入は、不透明なメトリクスの脆弱性を露呈し、学習された言語表現におけるパターンを強調します。
論文 参考訳(メタデータ) (2022-09-08T11:40:57Z) - On the Faithfulness Measurements for Model Interpretations [100.2730234575114]
ポストホックな解釈は、自然言語処理(NLP)モデルがどのように予測を行うかを明らかにすることを目的とする。
これらの問題に取り組むために,我々は,削除基準,解釈の感度,解釈の安定性という3つの基準から始める。
これらの忠実性概念のデシデラタムに動機づけられ、敵対的領域からのテクニックを採用する新しい解釈方法のクラスを導入する。
論文 参考訳(メタデータ) (2021-04-18T09:19:44Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - On quantitative aspects of model interpretability [0.0]
これらの次元に沿った手法は、2つの概念的部分、すなわち抽出器と実際の説明可能性法に含めることができると論じる。
異なるベンチマークタスクのメトリクスを実験的に検証し、そのタスクに最も適したメソッドの選択において、実践者の指導にどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-07-15T10:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。