Fugu-MT 論文翻訳(概要): On Degrees of Freedom in Defining and Testing Natural Language Understanding

論文の概要: On Degrees of Freedom in Defining and Testing Natural Language Understanding

arxiv url: http://arxiv.org/abs/2305.15130v1
Date: Wed, 24 May 2023 13:25:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 15:37:13.912470
Title: On Degrees of Freedom in Defining and Testing Natural Language Understanding
Title（参考訳）: 自然言語理解の定義とテストの自由度について
Authors: Saku Sugawara, Shun Tsugita
Abstract要約: 自然言語理解研究は、しばしばシステムの能力を誇張または過小評価する。これらの誤った評価は、NLUを適切に定義し、テストすることの難しさに起因する。本稿では,テストコンポーネント間の一連の検証基準を構成するフレームワークである妥当性議論を提案する。
参考スコア（独自算出の注目度）: 8.553766123004682
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Natural language understanding (NLU) studies often exaggerate or underestimate the capabilities of systems, thereby limiting the reproducibility of their findings. These erroneous evaluations can be attributed to the difficulty of defining and testing NLU adequately. In this position paper, we reconsider this challenge by identifying two types of researcher degrees of freedom. We revisit Turing's original interpretation of the Turing test and indicate that an NLU test does not provide an operational definition; it merely provides inductive evidence that the test subject understands the language sufficiently well to meet stakeholder objectives. In other words, stakeholders are free to arbitrarily define NLU through their objectives. To use the test results as inductive evidence, stakeholders must carefully assess if the interpretation of test scores is valid or not. However, designing and using NLU tests involve other degrees of freedom, such as specifying target skills and defining evaluation metrics. As a result, achieving consensus among stakeholders becomes difficult. To resolve this issue, we propose a validity argument, which is a framework comprising a series of validation criteria across test components. By demonstrating that current practices in NLU studies can be associated with those criteria and organizing them into a comprehensive checklist, we prove that the validity argument can serve as a coherent guideline for designing credible test sets and facilitating scientific communication.
Abstract（参考訳）: 自然言語理解(NLU)の研究は、しばしばシステムの能力を誇張または過小評価し、結果の再現性を制限する。これらの誤った評価は、NLUを適切に定義およびテストすることの難しさに起因する。本稿では,2種類の研究者の自由度を同定することで,この課題を再考する。我々はチューリングテストの本来の解釈を再検討し、NLUテストが運用定義を提供していないことを示し、テスト対象がステークホルダーの目的を満たすのに十分な言語を十分に理解していることの帰納的証拠を提供する。言い換えれば、利害関係者は自分の目的を通じて自由にNLUを定義できます。テスト結果を帰納的証拠として使用するためには、テストスコアの解釈が有効かどうかをステークホルダーが慎重に評価する必要がある。しかしながら、NLUテストの設計と使用には、ターゲットスキルの指定や評価基準の定義など、他の自由度が含まれる。その結果,利害関係者間の合意形成が困難になる。この問題を解決するために,テストコンポーネントをまたいだ一連の検証基準からなるフレームワークである妥当性議論を提案する。 NLU研究の現在の実践がそれらの基準と結びつき、それらを総合的なチェックリストに整理できることを実証することにより、信頼性テストセットを設計し、科学的コミュニケーションを促進するための一貫性のあるガイドラインとして有効であることを示す。

関連論文リスト

Are LLMs Ready for English Standardized Tests? A Benchmarking and Elicitation Perspective [13.167177024716338]
大規模言語モデル(LLM)は、学習者が教育コンテンツとどのように相互作用するかに革命をもたらすと約束している。英語標準テスト(EST)の多種多様なセットにまたがって、正確かつ文脈的に適切なソリューションを生成する能力を評価する。
論文参考訳（メタデータ） (2025-05-17T05:10:44Z)
A Framework for Evaluating LLMs Under Task Indeterminacy [49.298107503257036]
大規模言語モデル(LLM)の評価は、評価コーパスの各項目に対して単一の正しい応答(ゴールドラベル)があると仮定することが多い。タスク不確定性の下でLLMを評価するためのフレームワークを開発する。
論文参考訳（メタデータ） (2024-11-21T00:15:44Z)
FactTest: Factuality Testing in Large Language Models with Finite-Sample and Distribution-Free Guarantees [41.78390564658645]
幻覚や非現実的コンテンツを生成するための大規模言語モデル(LLM)は、高い領域での信頼性を損なう。 FactTest は LLM が与えられた質問に対する正しい回答を確実に提供できるかどうかを統計的に評価する新しいフレームワークである。本研究では,FactTestが幻覚を効果的に検出し,未知の疑問に答えることを禁じるモデルの能力を向上させることにより,40%以上の精度向上を実現していることを示す。
論文参考訳（メタデータ） (2024-11-04T20:53:04Z)
Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.517293765116307]
ユニットテストはソフトウェアの信頼性に不可欠だが、手動のテスト作成には時間がかかり、しばしば無視される。本研究は,LLM生成単体テストの大規模評価をクラスレベルで行った最初の大規模評価である。
論文参考訳（メタデータ） (2024-06-28T20:38:41Z)
TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文参考訳（メタデータ） (2024-02-19T21:12:14Z)
Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文参考訳（メタデータ） (2023-08-28T03:03:03Z)
DecompEval: Evaluating Generated Texts as Unsupervised Decomposed Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。 PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文参考訳（メタデータ） (2023-07-13T16:16:51Z)
Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文参考訳（メタデータ） (2023-03-20T17:54:58Z)
Language Models Are Poor Learners of Directional Inference [17.807086499130488]
LMはそのような方向推定を学習する能力に制限がある。既存のデータセットは方向テストに失敗する。既存の LM-prompting モデルは、無能な指向性エンターテイメント学習者である。
論文参考訳（メタデータ） (2022-10-10T13:43:16Z)
Not another Negation Benchmark: The NaN-NLI Test Suite for Sub-clausal Negation [59.307534363825816]
否定は現在の言語モデルでは不十分だが、この問題の範囲は広く理解されていない。自然言語推論(NLI)テストスイートを導入し,NLP手法の能力を検証した。
論文参考訳（メタデータ） (2022-10-06T23:39:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。