論文の概要: What Does My QA Model Know? Devising Controlled Probes using Expert
Knowledge
- arxiv url: http://arxiv.org/abs/1912.13337v2
- Date: Tue, 1 Sep 2020 22:24:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 20:52:54.755448
- Title: What Does My QA Model Know? Devising Controlled Probes using Expert
Knowledge
- Title(参考訳): 私のQAモデルは何を知っているか?
専門知識を用いた制御型プローブの開発
- Authors: Kyle Richardson and Ashish Sabharwal
- Abstract要約: 我々は,現在最先端のQAモデルが,単語定義や一般的な分類学的推論に関する一般的な知識を持っているかどうかを検討する。
さまざまなタイプの専門家の知識からデータセットを自動的に構築するための方法論を使用します。
評価の結果,変圧器を用いたQAモデルはすでにある種の構造的語彙的知識を認識できないことが確認された。
- 参考スコア(独自算出の注目度): 36.13528043657398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-domain question answering (QA) is known to involve several underlying
knowledge and reasoning challenges, but are models actually learning such
knowledge when trained on benchmark tasks? To investigate this, we introduce
several new challenge tasks that probe whether state-of-the-art QA models have
general knowledge about word definitions and general taxonomic reasoning, both
of which are fundamental to more complex forms of reasoning and are widespread
in benchmark datasets. As an alternative to expensive crowd-sourcing, we
introduce a methodology for automatically building datasets from various types
of expert knowledge (e.g., knowledge graphs and lexical taxonomies), allowing
for systematic control over the resulting probes and for a more comprehensive
evaluation. We find automatically constructing probes to be vulnerable to
annotation artifacts, which we carefully control for. Our evaluation confirms
that transformer-based QA models are already predisposed to recognize certain
types of structural lexical knowledge. However, it also reveals a more nuanced
picture: their performance degrades substantially with even a slight increase
in the number of hops in the underlying taxonomic hierarchy, or as more
challenging distractor candidate answers are introduced. Further, even when
these models succeed at the standard instance-level evaluation, they leave much
room for improvement when assessed at the level of clusters of semantically
connected probes (e.g., all Isa questions about a concept).
- Abstract(参考訳): オープンドメイン質問応答(QA)は、いくつかの基礎となる知識と推論の課題を含むことが知られているが、モデルがベンチマークタスクでトレーニングされた時に実際にそのような知識を学ぶことは事実か?
そこで本研究では,現在最先端のQAモデルが単語定義や一般的な分類学的推論に関する一般的な知識を持っているかどうかを探索する,新たな課題を提案する。
費用のかかるクラウドソーシングに代わるものとして,様々な専門家知識(知識グラフや語彙分類学など)からデータセットを自動的に構築する手法を導入し,結果として得られたプローブを体系的に制御し,より包括的な評価を行う。
アノテーションのアーティファクトに対して脆弱なプローブを自動的に構築し、慎重に制御する。
評価の結果,変圧器を用いたQAモデルはすでにある種の構造的語彙的知識を認識できないことが確認された。
しかし、そのパフォーマンスは、下位の分類学階層におけるホップ数をわずかに増やすか、あるいはより難易度の高い候補回答が導入されたことで、実質的に低下する。
さらに、これらのモデルが標準的なインスタンスレベルの評価に成功しても、意味的に連結されたプローブのクラスタレベル(例えば、Isaのすべての概念に関する質問)で評価すると、多くの改善の余地が残される。
関連論文リスト
- Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language Models [0.0]
自然言語処理におけるオープンドメイン質問回答(ODQA)は,大規模知識コーパスを用いて,事実質問に回答するシステムを構築する。
高品質なデータセットは、現実的なシナリオでモデルをトレーニングするために使用されます。
標準化されたメトリクスは、異なるODQAシステム間の比較を容易にする。
論文 参考訳(メタデータ) (2024-06-19T05:43:02Z) - Towards Better Generalization in Open-Domain Question Answering by Mitigating Context Memorization [67.92796510359595]
Open-Domain Question Answering (OpenQA)は、外部の大規模知識コーパスで事実質問に答えることを目的としている。
OpenQAモデルが完全に新しい知識ドメインにどの程度うまく移行できるかは、まだ不明である。
コーパス不変チューニング(CIT: Corpus-Invariant Tuning)は,記憶過剰な知識の軽減を目的とした,シンプルで効果的なトレーニング戦略である。
論文 参考訳(メタデータ) (2024-04-02T05:44:50Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for
Zero-Shot Commonsense Question Answering [48.25449258017601]
State-of-the-artはCommonSense Knowledge Basesから構築されたQAペア上での微調整言語モデルにアプローチする。
本稿では,QA診断と改善のためのトレーニング動的フレームワークQADYNAMICSを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:27:34Z) - Attentive Q-Matrix Learning for Knowledge Tracing [4.863310073296471]
エンド・ツー・エンド・エンド・スタイルのモデルとして,Q-matrix-based Attentive Knowledge Tracing (QAKT)を提案する。
QAKTは、問題を階層的にモデル化し、生徒のシーケンスに基づいてq行列を効率的に学習することができる。
さらなる実験の結果、QAKTによって学習されたq行列は、人間の専門家によってラベル付けされたものよりも非常にモデルに依存し、情報に十分であることが示唆された。
論文 参考訳(メタデータ) (2023-04-06T12:31:34Z) - ArT: All-round Thinker for Unsupervised Commonsense Question-Answering [54.068032948300655]
本稿では,知識生成における関連性を完全に取り除き,オールラウンド思考者(ArT)のアプローチを提案する。
我々は、COPA、SocialIQA、SCTの3つの共通センスQAベンチマークで評価した。
論文 参考訳(メタデータ) (2021-12-26T18:06:44Z) - KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.716531169609915]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。
提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。
我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (2021-12-16T04:37:10Z) - Self-supervised Knowledge Triplet Learning for Zero-shot Question
Answering [33.920269584939334]
知識グラフ上の自己教師型タスクである知識トリプルト学習(KTL)を提案する。
そこで本研究では,KTLを用いてゼロショットQAを行う方法を提案する。
論文 参考訳(メタデータ) (2020-05-01T11:24:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。