論文の概要: Vera: A General-Purpose Plausibility Estimation Model for Commonsense
Statements
- arxiv url: http://arxiv.org/abs/2305.03695v3
- Date: Wed, 18 Oct 2023 14:48:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 20:31:15.347956
- Title: Vera: A General-Purpose Plausibility Estimation Model for Commonsense
Statements
- Title(参考訳): vera:commonsense文の汎用的妥当性推定モデル
- Authors: Jiacheng Liu, Wenya Wang, Dianzhuo Wang, Noah A. Smith, Yejin Choi,
Hannaneh Hajishirzi
- Abstract要約: 本稿では,コモンセンス知識に基づく宣言文の妥当性を推定する汎用モデルであるVeraを紹介する。
19のQAデータセットと2つの大規模ナレッジベースから生成された7Mのコモンセンスステートメントに基づいてトレーニングされた。
Vera は LM 生成したコモンセンス知識のフィルタリングに優れており,ChatGPT などのモデルが生成する誤ったコモンセンス文を実環境で検出するのに有用である。
- 参考スコア(独自算出の注目度): 135.09277663808322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the much discussed capabilities of today's language models, they are
still prone to silly and unexpected commonsense failures. We consider a
retrospective verification approach that reflects on the correctness of LM
outputs, and introduce Vera, a general-purpose model that estimates the
plausibility of declarative statements based on commonsense knowledge. Trained
on ~7M commonsense statements created from 19 QA datasets and two large-scale
knowledge bases, and with a combination of three training objectives, Vera is a
versatile model that effectively separates correct from incorrect statements
across diverse commonsense domains. When applied to solving commonsense
problems in the verification format, Vera substantially outperforms existing
models that can be repurposed for commonsense verification, and it further
exhibits generalization capabilities to unseen tasks and provides
well-calibrated outputs. We find that Vera excels at filtering LM-generated
commonsense knowledge and is useful in detecting erroneous commonsense
statements generated by models like ChatGPT in real-world settings.
- Abstract(参考訳): 今日の言語モデルでよく議論されている機能にもかかわらず、彼らはいまだにばかばかしく予期せぬコモンセンスの失敗の傾向にある。
我々は,lm出力の正確性を反映したふりかえり検証手法を検討し,共通認識知識に基づいて宣言文の妥当性を推定する汎用モデル vera を導入する。
19のqaデータセットと2つの大規模知識ベースから作成された約7mのcommonsenseステートメントでトレーニングされ、3つのトレーニング目標を組み合わせたveraは、さまざまなcommonsenseドメインにわたる不正ステートメントとを効果的に分離する汎用モデルである。
検証形式におけるコモンセンス問題の解法に適用した場合、Veraは、コモンセンス検証のために再利用できる既存のモデルを大幅に上回り、未確認タスクへの一般化能力を示し、よく校正された出力を提供する。
Vera は LM 生成したコモンセンス知識のフィルタリングに優れており,ChatGPT などのモデルが生成する誤ったコモンセンス文を実環境で検出するのに有用である。
関連論文リスト
- FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" [74.7488607599921]
FaithEvalは、コンテキストシナリオにおける大規模言語モデル(LLM)の忠実度を評価するためのベンチマークである。
FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証されている。
論文 参考訳(メタデータ) (2024-09-30T06:27:53Z) - Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。
広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。
本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文 参考訳(メタデータ) (2024-04-25T10:03:14Z) - Knowledge-Augmented Language Model Verification [68.6099592486075]
最近の言語モデル(LM)は、パラメータに内在化された知識を持つテキストを生成する際、印象的な能力を示している。
本稿では,知識付加型LMの出力と知識を別個の検証器で検証することを提案する。
その結果,提案した検証器は,検索と生成の誤りを効果的に識別し,LMがより現実的に正しい出力を提供できることを示した。
論文 参考訳(メタデータ) (2023-10-19T15:40:00Z) - Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文 参考訳(メタデータ) (2023-06-04T15:44:51Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - FactKB: Generalizable Factuality Evaluation using Language Models
Enhanced with Factual Knowledge [37.2179237007464]
本稿では,ドメイン間で一般化可能なファクトリティー評価手法であるFactKBを提案する。
本稿では, 直接実体事実に基づく補完的事実事前学習の目的, 実体に関する補助的知識に基づく事実, 知識ベースウォークを通じて構成的に構築された事実の3つの種類を紹介する。
結果の事実性評価モデルは、2つのドメイン内ニュース要約ベンチマークと3つのドメイン外科学文献データセットに対して、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-14T23:58:05Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。