論文の概要: On Degrees of Freedom in Defining and Testing Natural Language
Understanding
- arxiv url: http://arxiv.org/abs/2305.15130v1
- Date: Wed, 24 May 2023 13:25:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 15:37:13.912470
- Title: On Degrees of Freedom in Defining and Testing Natural Language
Understanding
- Title(参考訳): 自然言語理解の定義とテストの自由度について
- Authors: Saku Sugawara, Shun Tsugita
- Abstract要約: 自然言語理解研究は、しばしばシステムの能力を誇張または過小評価する。
これらの誤った評価は、NLUを適切に定義し、テストすることの難しさに起因する。
本稿では,テストコンポーネント間の一連の検証基準を構成するフレームワークである妥当性議論を提案する。
- 参考スコア(独自算出の注目度): 8.553766123004682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language understanding (NLU) studies often exaggerate or
underestimate the capabilities of systems, thereby limiting the reproducibility
of their findings. These erroneous evaluations can be attributed to the
difficulty of defining and testing NLU adequately. In this position paper, we
reconsider this challenge by identifying two types of researcher degrees of
freedom. We revisit Turing's original interpretation of the Turing test and
indicate that an NLU test does not provide an operational definition; it merely
provides inductive evidence that the test subject understands the language
sufficiently well to meet stakeholder objectives. In other words, stakeholders
are free to arbitrarily define NLU through their objectives. To use the test
results as inductive evidence, stakeholders must carefully assess if the
interpretation of test scores is valid or not. However, designing and using NLU
tests involve other degrees of freedom, such as specifying target skills and
defining evaluation metrics. As a result, achieving consensus among
stakeholders becomes difficult. To resolve this issue, we propose a validity
argument, which is a framework comprising a series of validation criteria
across test components. By demonstrating that current practices in NLU studies
can be associated with those criteria and organizing them into a comprehensive
checklist, we prove that the validity argument can serve as a coherent
guideline for designing credible test sets and facilitating scientific
communication.
- Abstract(参考訳): 自然言語理解(NLU)の研究は、しばしばシステムの能力を誇張または過小評価し、結果の再現性を制限する。
これらの誤った評価は、NLUを適切に定義およびテストすることの難しさに起因する。
本稿では,2種類の研究者の自由度を同定することで,この課題を再考する。
我々はチューリングテストの本来の解釈を再検討し、NLUテストが運用定義を提供していないことを示し、テスト対象がステークホルダーの目的を満たすのに十分な言語を十分に理解していることの帰納的証拠を提供する。
言い換えれば、利害関係者は自分の目的を通じて自由にNLUを定義できます。
テスト結果を帰納的証拠として使用するためには、テストスコアの解釈が有効かどうかをステークホルダーが慎重に評価する必要がある。
しかしながら、NLUテストの設計と使用には、ターゲットスキルの指定や評価基準の定義など、他の自由度が含まれる。
その結果,利害関係者間の合意形成が困難になる。
この問題を解決するために,テストコンポーネントをまたいだ一連の検証基準からなるフレームワークである妥当性議論を提案する。
NLU研究の現在の実践がそれらの基準と結びつき、それらを総合的なチェックリストに整理できることを実証することにより、信頼性テストセットを設計し、科学的コミュニケーションを促進するための一貫性のあるガイドラインとして有効であることを示す。
関連論文リスト
- FactTest: Factuality Testing in Large Language Models with Finite-Sample and Distribution-Free Guarantees [41.78390564658645]
幻覚や非現実的コンテンツを生成するための大規模言語モデル(LLM)は、高い領域での信頼性を損なう。
FactTest は LLM が与えられた質問に対する正しい回答を確実に提供できるかどうかを統計的に評価する新しいフレームワークである。
本研究では,FactTestが幻覚を効果的に検出し,未知の疑問に答えることを禁じるモデルの能力を向上させることにより,40%以上の精度向上を実現していることを示す。
論文 参考訳(メタデータ) (2024-11-04T20:53:04Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - Robust Representation Learning for Unreliable Partial Label Learning [86.909511808373]
部分ラベル学習(Partial Label Learning, PLL)は、弱い教師付き学習の一種で、各トレーニングインスタンスに候補ラベルのセットが割り当てられる。
これはUn Reliable partial Label Learning (UPLL) と呼ばれ、部分ラベルの本質的な信頼性の欠如とあいまいさにより、さらなる複雑さをもたらす。
本研究では,信頼できない部分ラベルに対するモデル強化を支援するために,信頼性に欠けるコントラスト学習を活用するUnreliability-Robust Representation Learning framework(URRL)を提案する。
論文 参考訳(メタデータ) (2023-08-31T13:37:28Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z) - Language Models Are Poor Learners of Directional Inference [17.807086499130488]
LMはそのような方向推定を学習する能力に制限がある。
既存のデータセットは方向テストに失敗する。
既存の LM-prompting モデルは、無能な指向性エンターテイメント学習者である。
論文 参考訳(メタデータ) (2022-10-10T13:43:16Z) - Not another Negation Benchmark: The NaN-NLI Test Suite for Sub-clausal
Negation [59.307534363825816]
否定は現在の言語モデルでは不十分だが、この問題の範囲は広く理解されていない。
自然言語推論(NLI)テストスイートを導入し,NLP手法の能力を検証した。
論文 参考訳(メタデータ) (2022-10-06T23:39:01Z) - LoNLI: An Extensible Framework for Testing Diverse Logical Reasoning
Capabilities for NLI [14.37879960427435]
自然言語推論(NLI)は、自然言語理解(NLU)をテストするための代表的なタスクである。
半合成大試験台(363テンプレート、363k例)を作成します。
我々は、自由形式の自然言語テンプレート(CheckList)から自動テストケースインスタンス化の公開フレームワークを拡張した。
論文 参考訳(メタデータ) (2021-12-04T13:41:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。