論文の概要: CKBP v2: An Expert-Annotated Evaluation Set for Commonsense Knowledge
Base Population
- arxiv url: http://arxiv.org/abs/2304.10392v1
- Date: Thu, 20 Apr 2023 15:27:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 12:46:25.794919
- Title: CKBP v2: An Expert-Annotated Evaluation Set for Commonsense Knowledge
Base Population
- Title(参考訳): CKBP v2:Commonsense Knowledge Base Populationのエキスパートアノテーション評価セット
- Authors: Tianqing Fang, Quyet V. Do, Sehyun Choi, Weiqi Wang, Yangqiu Song
- Abstract要約: 我々は、新しい高品質CSKB PopulationベンチマークであるCKBP v2を紹介する。
我々は,CSKB集団の最先端手法を新たな評価セットで比較する実験を行った。
- 参考スコア(独自算出の注目度): 27.48660712102029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Populating Commonsense Knowledge Bases (CSKB) is an important yet hard task
in NLP, as it tackles knowledge from external sources with unseen events and
entities. Fang et al. (2021a) proposed a CSKB Population benchmark with an
evaluation set CKBP v1. However, CKBP v1 adopts crowdsourced annotations that
suffer from a substantial fraction of incorrect answers, and the evaluation set
is not well-aligned with the external knowledge source as a result of random
sampling. In this paper, we introduce CKBP v2, a new high-quality CSKB
Population benchmark, which addresses the two mentioned problems by using
experts instead of crowd-sourced annotation and by adding diversified
adversarial samples to make the evaluation set more representative. We conduct
extensive experiments comparing state-of-the-art methods for CSKB Population on
the new evaluation set for future research comparisons. Empirical results show
that the population task is still challenging, even for large language models
(LLM) such as ChatGPT. Codes and data are available at
https://github.com/HKUST-KnowComp/CSKB-Population.
- Abstract(参考訳): CSKB(Populating Commonsense Knowledge Bases)は、NLPにおいて重要かつ困難なタスクであり、未知のイベントやエンティティを持つ外部ソースからの知識に対処する。
Fang et al. (2021a) は CKBP v1 の評価セットを持つ CSKB Population ベンチマークを提案した。
しかし、CKBP v1では、誤答のかなりの割合に苦しむクラウドソースアノテーションを採用しており、ランダムサンプリングの結果、評価セットは外部知識ソースとうまく一致していない。
本稿では,クラウドソースのアノテーションを使わずに専門家を雇い,評価セットをより代表的にするために,多種多様な敵のサンプルを追加することで,上記2つの問題に対処した,高品質なcskb人口ベンチマークであるckbp v2を紹介する。
我々は,CSKB集団の最先端手法を今後の研究比較のための新しい評価セットで比較する広範囲な実験を行った。
実験の結果,ChatGPT のような大規模言語モデル (LLM) においても,人口タスクは依然として困難であることがわかった。
コードとデータはhttps://github.com/HKUST-KnowComp/CSKB-Populationで公開されている。
関連論文リスト
- Linguistic Fuzzy Information Evolution with Random Leader Election Mechanism for Decision-Making Systems [58.67035332062508]
言語ファジィ情報進化はエージェント間の情報交換を理解する上で重要である。
エージェントの重みの違いは、古典的なDeGrootモデルにおいて異なる収束結果をもたらす可能性がある。
本稿では,言語ファジィ情報力学の新しい3つのモデルを提案する。
論文 参考訳(メタデータ) (2024-10-19T18:15:24Z) - A Learn-Then-Reason Model Towards Generalization in Knowledge Base Question Answering [17.281005999581865]
FreebaseやWikidataのような大規模知識ベース(KB)には、数百万の構造化知識がある。
Knowledge Base Question Answering (KBQA)は、自然言語の質問を通じて、これらの貴重なKBにアクセスするためのユーザフレンドリな方法を提供する。
本稿では,KBLLaMAを開発した。KBLLaMAは,新しいKB知識を言語モデルに注入し,フレキシブルなエンドツーエンドKBQAを実現するためのフレームワークである。
論文 参考訳(メタデータ) (2024-06-20T22:22:41Z) - CAR: Conceptualization-Augmented Reasoner for Zero-Shot Commonsense
Question Answering [56.592385613002584]
ゼロショットコモンセンス質問応答の課題に対処するために,概念化強化推論器(CAR)を提案する。
CARは、CommonSenseの知識を多くの高レベルなインスタンスに抽象化し、CommonSenseの知識ベースの範囲を拡大する。
CARは、既存のメソッドよりも、ゼロショットのコモンセンスシナリオに関する質問に答えることにより、より堅牢に一般化する。
論文 参考訳(メタデータ) (2023-05-24T08:21:31Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - PseudoReasoner: Leveraging Pseudo Labels for Commonsense Knowledge Base
Population [40.526736652672916]
CSKB人口を対象とした半教師付き学習フレームワークであるPseudoReasonerを提案する。
CSKBで事前訓練された教師モデルを使用して、学生モデルから学ぶためのラベルなし候補データセットに擬似ラベルを提供する。
このフレームワークは、全体的なパフォーマンス、特にドメイン外パフォーマンスの5.3ポイントにおいて、バックボーンモデルKG-BERTを3.3ポイント改善することができる。
論文 参考訳(メタデータ) (2022-10-14T17:37:30Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Benchmarking Commonsense Knowledge Base Population with an Effective
Evaluation Dataset [37.02104430195374]
要素が自由テキストの形で存在するCSKB(Commonsense Knowledge Base)に対する推論は、NLPにおいて重要であるが難しい課題である。
我々はCSKB集団タスクを新しい大規模データセットでベンチマークする。
また,グラフ上の推論を行う新しい帰納的コモンセンス推論モデルを提案する。
論文 参考訳(メタデータ) (2021-09-16T02:50:01Z) - Beyond I.I.D.: Three Levels of Generalization for Question Answering on
Knowledge Bases [63.43418760818188]
GrailQA.comは64,331の質問で、新しい大規模で高品質なデータセットをリリースしました。
BERTベースのKBQAモデルを提案する。
データセットとモデルの組み合わせにより、KBQAの一般化におけるBERTのような事前学習されたコンテキスト埋め込みの重要な役割を、初めて徹底的に検証し、実証することが可能になります。
論文 参考訳(メタデータ) (2020-11-16T06:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。