論文の概要: Evaluating Machine Common Sense via Cloze Testing
- arxiv url: http://arxiv.org/abs/2201.07902v1
- Date: Wed, 19 Jan 2022 23:00:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 13:55:55.484902
- Title: Evaluating Machine Common Sense via Cloze Testing
- Title(参考訳): クローズテストによる機械共通感覚の評価
- Authors: Ehsan Qasemi, Lee Kezar, Jay Pujara, Pedro Szekely
- Abstract要約: 言語モデル (LM) は, CS (Common sense) 質問応答における技術性能の状況を示す。
しかし、この能力がCSの人間レベルの熟達を意味するかどうかは未解決の問題だ。
CSのさまざまな側面において,その性能を定量化するための一連のテストと測定を考案する。
- 参考スコア(独自算出の注目度): 14.195305160595082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) show state of the art performance for common sense (CS)
question answering, but whether this ability implies a human-level mastery of
CS remains an open question. Understanding the limitations and strengths of LMs
can help researchers improve these models, potentially by developing novel ways
of integrating external CS knowledge. We devise a series of tests and
measurements to systematically quantify their performance on different aspects
of CS. We propose the use of cloze testing combined with word embeddings to
measure the LM's robustness and confidence. Our results show than although
language models tend to achieve human-like accuracy, their confidence is
subpar. Future work can leverage this information to build more complex
systems, such as an ensemble of symbolic and distributed knowledge.
- Abstract(参考訳): 言語モデル (LM) は, CS の質問応答における技術性能の状態を示すが, この能力がCS の人間レベルの熟達を示唆するかどうかは未解決のままである。
LMの限界と強みを理解することは、研究者がこれらのモデルを改善するのに役立つ。
我々は, cs の異なる側面における性能を体系的に定量化するために, 一連のテストと測定を考案する。
本研究では,単語埋め込みと組み合わせたクローゼテストを用いて,lmの堅牢性と信頼性を測定する。
その結果,言語モデルでは人間のような精度が得られやすいが,信頼性は低いことがわかった。
将来の作業では、この情報を利用して、シンボリック知識と分散知識の集合のような、より複雑なシステムを構築することができる。
関連論文リスト
- Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Can I understand what I create? Self-Knowledge Evaluation of Large Language Models [31.85129258347539]
大規模言語モデル(LLM)は言語タスクにおいて顕著な進歩を遂げた。
フェインマンの創造を通して理解する原理に触発され、自己知識評価フレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-10T09:53:54Z) - Verbalized Probabilistic Graphical Modeling with Large Language Models [8.961720262676195]
この研究は、大規模言語モデルによる学習自由ベイズ推論を促進する新しいベイズ急進的アプローチを導入している。
本研究は,AI言語理解システムの改善の可能性を示すとともに,信頼性評価とテキスト生成品質を効果的に向上させることを示唆する。
論文 参考訳(メタデータ) (2024-06-08T16:35:31Z) - Augmenting LLMs with Knowledge: A survey on hallucination prevention [0.0]
この調査は言語モデル(LM)の領域を掘り下げ、外部の知識ソースをタップする機能を備えている。
欠落したトークンを予測するという標準的な目的に固執する一方で、これらの拡張LMは多種多様で、おそらくパラメトリックでない外部モジュールを活用する。
論文 参考訳(メタデータ) (2023-09-28T14:09:58Z) - Leveraging Knowledge and Reinforcement Learning for Enhanced Reliability
of Language Models [10.10140327060947]
本研究では,知識グラフの埋め込みとしてコンセプションネットやウィキペディアの知識を統合するために,強化学習を活用する知識誘導型LMアンサンブルアプローチについて検討する。
このアプローチは、データセットの情報不足を補うために外部知識に頼った人間のアノテーションを模倣する。
9つのGLUEデータセットを通して、我々の研究は、アンサンブルが信頼性と精度のスコアを強化し、技術の性能を向上することを示した。
論文 参考訳(メタデータ) (2023-08-25T16:11:08Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Do Large Language Models Know What They Don't Know? [74.65014158544011]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに優れた知識を持つ。
膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。
本研究の目的は,LLMの自己理解能力を評価することである。
論文 参考訳(メタデータ) (2023-05-29T15:30:13Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Zero-shot Commonsense Question Answering with Cloze Translation and
Consistency Optimization [20.14487209460865]
自然質問をクローズスタイルの文に翻訳できる4つの翻訳手法について検討する。
提案手法は知識ベース改良モデルと相補的なデータセットであり,それらを組み合わせることで,最先端のゼロショット性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-01T07:12:49Z) - Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。
問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。
包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。