論文の概要: Can NLP Models Correctly Reason Over Contexts that Break the Common
Assumptions?
- arxiv url: http://arxiv.org/abs/2305.12096v1
- Date: Sat, 20 May 2023 05:20:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 00:47:26.245437
- Title: Can NLP Models Correctly Reason Over Contexts that Break the Common
Assumptions?
- Title(参考訳): nlpモデルは、共通の前提を破るコンテキストを正しく推論できるか?
- Authors: Neeraj Varshney, Mihir Parmar, Nisarg Patel, Divij Handa, Sayantan
Sarkar, Man Luo, Chitta Baral
- Abstract要約: 我々は,NLPモデルが一般的な仮定を破る文脈を正しく推論する能力について検討する。
一般的な仮定に従うコンテキストでかなりうまく機能する一方で、モデルはこれらの仮定を破るコンテキストに対して正しく推論するのに苦労しています。
具体的には、パフォーマンスギャップは20%の絶対点である。
- 参考スコア(独自算出の注目度): 14.991565484636745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training on large corpora of text enables the language models to acquire
a vast amount of factual and commonsense knowledge which allows them to achieve
remarkable performance on a variety of language understanding tasks. They
typically acquire this knowledge by learning from the pre-training text and
capturing certain patterns from it. However, real-world settings often present
scenarios that do not abide by these patterns i.e. scenarios that break the
common assumptions. Can state-of-the-art NLP models correctly reason over the
contexts of such scenarios?
Addressing the above question, in this paper, we investigate the ability of
models to correctly reason over contexts that break the common assumptions. To
this end, we first systematically create evaluation data in which each data
instance consists of (a) a common assumption, (b) a context that follows the
assumption, (c) a context that breaks the assumption, and (d) questions based
on the contexts. Then, through evaluations on multiple models including GPT-3
and Flan T5, we show that while doing fairly well on contexts that follow the
common assumptions, the models struggle to correctly reason over contexts that
break those assumptions. Specifically, the performance gap is as high as 20%
absolute points. Furthermore, we thoroughly analyze these results revealing
several interesting findings. We believe our work and findings will encourage
and facilitate further research in developing more robust models that can also
reliably reason over contexts that break the common assumptions. Data is
available at \url{https://github.com/nrjvarshney/break_the_common_assumptions}.
- Abstract(参考訳): 大量のテキストのコーパスを事前学習することで、言語モデルは膨大な事実と常識の知識を習得し、様々な言語理解タスクにおいて優れたパフォーマンスを達成することができる。
彼らは通常、事前学習したテキストから学習し、それから特定のパターンをキャプチャすることで、この知識を得る。
しかし、現実世界の設定は、しばしばこれらのパターンに従わないシナリオ、すなわち一般的な仮定を破るシナリオを示す。
最先端のNLPモデルは、そのようなシナリオのコンテキストを正しく推論できるか?
本稿では,上記の問題に対して,共通の仮定を破る文脈を正しく推論するモデルの能力について検討する。
この目的のために、まず各データインスタンスが構成する評価データを体系的に作成する。
(a)共通の仮定
(b)前提に従う文脈
(c)前提を破る文脈、及び
(d)文脈に基づく質問。
そして、gpt-3やflan t5を含む複数のモデルに対する評価を通じて、共通の仮定に従うコンテキストをかなりうまく検討しながら、これらの仮定を破るコンテキストを正しく推論するのに苦労していることを示す。
具体的には、パフォーマンスギャップは20%の絶対点である。
さらに,これらの結果からいくつかの興味深い知見が得られた。
我々の研究と知見は、共通の前提を破るコンテキストよりも確実に推論できる、より堅牢なモデルの開発において、さらなる研究を奨励し、促進すると信じています。
データは \url{https://github.com/nrjvarshney/break_the_common_assumptions} で入手できる。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - QUITE: Quantifying Uncertainty in Natural Language Text in Bayesian Reasoning Scenarios [15.193544498311603]
本稿では,カテゴリー的確率変数と複雑な関係を持つ実世界のベイズ推論シナリオのデータセットであるQUITEを提案する。
我々は幅広い実験を行い、論理ベースのモデルが全ての推論型において、アウト・オブ・ボックスの大規模言語モデルより優れていることを発見した。
以上の結果から,ニューロシンボリックモデルが複雑な推論を改善する上で有望な方向であることを示す。
論文 参考訳(メタデータ) (2024-10-14T12:44:59Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。
広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。
本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文 参考訳(メタデータ) (2024-04-25T10:03:14Z) - DAIL: Data Augmentation for In-Context Learning via Self-Paraphrase [37.68804898063595]
In-Context Learning (ICL)と事前訓練された大規模言語モデルを組み合わせることで、様々なNLPタスクにおいて有望な結果が得られた。
textbfData textbfAugmentation for textbfIn-Context textbfLearning (textbfDAIL)を提案する。
論文 参考訳(メタデータ) (2023-11-06T18:12:55Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Context vs Target Word: Quantifying Biases in Lexical Semantic Datasets [18.754562380068815]
BERTのような最先端のコンテキスト化モデルは、WiCやWSDのようなタスクを使用して、ワード・イン・コンテクストの表現を評価する。
本研究は,主要な文脈的語彙意味タスクにおいて,文脈-単語間相互作用を検証した最初の定量的分析(探索ベースラインを用いた)を提案する。
論文 参考訳(メタデータ) (2021-12-13T15:37:05Z) - Toward the Understanding of Deep Text Matching Models for Information
Retrieval [72.72380690535766]
本稿では,既存の深層テキストマッチング手法が情報検索の基本的な勾配を満たすかどうかを検証することを目的とする。
具体的には, 項周波数制約, 項識別制約, 長さ正規化制約, TF長制約の4つの属性を用いる。
LETOR 4.0 と MS Marco の実験結果から,研究対象の深層テキストマッチング手法はすべて,統計学において高い確率で上記の制約を満たすことが示された。
論文 参考訳(メタデータ) (2021-08-16T13:33:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。