論文の概要: On Degrees of Freedom in Defining and Testing Natural Language
Understanding
- arxiv url: http://arxiv.org/abs/2305.15130v1
- Date: Wed, 24 May 2023 13:25:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 15:37:13.912470
- Title: On Degrees of Freedom in Defining and Testing Natural Language
Understanding
- Title(参考訳): 自然言語理解の定義とテストの自由度について
- Authors: Saku Sugawara, Shun Tsugita
- Abstract要約: 自然言語理解研究は、しばしばシステムの能力を誇張または過小評価する。
これらの誤った評価は、NLUを適切に定義し、テストすることの難しさに起因する。
本稿では,テストコンポーネント間の一連の検証基準を構成するフレームワークである妥当性議論を提案する。
- 参考スコア(独自算出の注目度): 8.553766123004682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language understanding (NLU) studies often exaggerate or
underestimate the capabilities of systems, thereby limiting the reproducibility
of their findings. These erroneous evaluations can be attributed to the
difficulty of defining and testing NLU adequately. In this position paper, we
reconsider this challenge by identifying two types of researcher degrees of
freedom. We revisit Turing's original interpretation of the Turing test and
indicate that an NLU test does not provide an operational definition; it merely
provides inductive evidence that the test subject understands the language
sufficiently well to meet stakeholder objectives. In other words, stakeholders
are free to arbitrarily define NLU through their objectives. To use the test
results as inductive evidence, stakeholders must carefully assess if the
interpretation of test scores is valid or not. However, designing and using NLU
tests involve other degrees of freedom, such as specifying target skills and
defining evaluation metrics. As a result, achieving consensus among
stakeholders becomes difficult. To resolve this issue, we propose a validity
argument, which is a framework comprising a series of validation criteria
across test components. By demonstrating that current practices in NLU studies
can be associated with those criteria and organizing them into a comprehensive
checklist, we prove that the validity argument can serve as a coherent
guideline for designing credible test sets and facilitating scientific
communication.
- Abstract(参考訳): 自然言語理解(NLU)の研究は、しばしばシステムの能力を誇張または過小評価し、結果の再現性を制限する。
これらの誤った評価は、NLUを適切に定義およびテストすることの難しさに起因する。
本稿では,2種類の研究者の自由度を同定することで,この課題を再考する。
我々はチューリングテストの本来の解釈を再検討し、NLUテストが運用定義を提供していないことを示し、テスト対象がステークホルダーの目的を満たすのに十分な言語を十分に理解していることの帰納的証拠を提供する。
言い換えれば、利害関係者は自分の目的を通じて自由にNLUを定義できます。
テスト結果を帰納的証拠として使用するためには、テストスコアの解釈が有効かどうかをステークホルダーが慎重に評価する必要がある。
しかしながら、NLUテストの設計と使用には、ターゲットスキルの指定や評価基準の定義など、他の自由度が含まれる。
その結果,利害関係者間の合意形成が困難になる。
この問題を解決するために,テストコンポーネントをまたいだ一連の検証基準からなるフレームワークである妥当性議論を提案する。
NLU研究の現在の実践がそれらの基準と結びつき、それらを総合的なチェックリストに整理できることを実証することにより、信頼性テストセットを設計し、科学的コミュニケーションを促進するための一貫性のあるガイドラインとして有効であることを示す。
関連論文リスト
- StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、構造化されたアウトプットを生成する能力に基づいて、大きな言語モデルを評価する新しいベンチマークである。
StructTestが一般的な推論能力のよいプロキシであることを示す。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - A Framework for Evaluating LLMs Under Task Indeterminacy [49.298107503257036]
大規模言語モデル(LLM)の評価は、評価コーパスの各項目に対して単一の正しい応答(ゴールドラベル)があると仮定することが多い。
タスク不確定性の下でLLMを評価するためのフレームワークを開発する。
論文 参考訳(メタデータ) (2024-11-21T00:15:44Z) - FactTest: Factuality Testing in Large Language Models with Finite-Sample and Distribution-Free Guarantees [41.78390564658645]
幻覚や非現実的コンテンツを生成するための大規模言語モデル(LLM)は、高い領域での信頼性を損なう。
FactTest は LLM が与えられた質問に対する正しい回答を確実に提供できるかどうかを統計的に評価する新しいフレームワークである。
本研究では,FactTestが幻覚を効果的に検出し,未知の疑問に答えることを禁じるモデルの能力を向上させることにより,40%以上の精度向上を実現していることを示す。
論文 参考訳(メタデータ) (2024-11-04T20:53:04Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - Language Models Are Poor Learners of Directional Inference [17.807086499130488]
LMはそのような方向推定を学習する能力に制限がある。
既存のデータセットは方向テストに失敗する。
既存の LM-prompting モデルは、無能な指向性エンターテイメント学習者である。
論文 参考訳(メタデータ) (2022-10-10T13:43:16Z) - Not another Negation Benchmark: The NaN-NLI Test Suite for Sub-clausal
Negation [59.307534363825816]
否定は現在の言語モデルでは不十分だが、この問題の範囲は広く理解されていない。
自然言語推論(NLI)テストスイートを導入し,NLP手法の能力を検証した。
論文 参考訳(メタデータ) (2022-10-06T23:39:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。