論文の概要: What's the best place for an AI conference, Vancouver or ______: Why
completing comparative questions is difficult
- arxiv url: http://arxiv.org/abs/2104.01940v1
- Date: Mon, 5 Apr 2021 14:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:41:45.640225
- Title: What's the best place for an AI conference, Vancouver or ______: Why
completing comparative questions is difficult
- Title(参考訳): バンクーバーか______:なぜ比較質問を完結させるのが難しいのか
- Authors: Avishai Zagoury and Einat Minkov and Idan Szpektor and William W.
Cohen
- Abstract要約: ニューラルLMが妥当な質問をする(答えない)能力について研究する。
この課題の正確性は,質問が妥当かどうかの判断とよく関連している。
- 参考スコア(独自算出の注目度): 22.04829832439774
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although large neural language models (LMs) like BERT can be finetuned to
yield state-of-the-art results on many NLP tasks, it is often unclear what
these models actually learn. Here we study using such LMs to fill in entities
in human-authored comparative questions, like ``Which country is older, India
or ______?'' -- i.e., we study the ability of neural LMs to ask (not answer)
reasonable questions. We show that accuracy in this fill-in-the-blank task is
well-correlated with human judgements of whether a question is reasonable, and
that these models can be trained to achieve nearly human-level performance in
completing comparative questions in three different subdomains. However,
analysis shows that what they learn fails to model any sort of broad notion of
which entities are semantically comparable or similar -- instead the trained
models are very domain-specific, and performance is highly correlated with
co-occurrences between specific entities observed in the training set. This is
true both for models that are pretrained on general text corpora, as well as
models trained on a large corpus of comparison questions. Our study thus
reinforces recent results on the difficulty of making claims about a deep
model's world knowledge or linguistic competence based on performance on
specific benchmark problems. We make our evaluation datasets publicly available
to foster future research on complex understanding and reasoning in such models
at standards of human interaction.
- Abstract(参考訳): BERTのような大きなニューラルネットワークモデル(LM)は、多くのNLPタスクで最先端の結果を得るために微調整できるが、これらのモデルが実際に何を学ぶのかはよく分かっていない。
そこで,このようなlmsを用いて「どの国が古いか、インドか、______?」など、人間による比較質問の実体を満たしている。
--つまり、ニューラルネットワークが合理的な質問に答える(答えない)能力について研究する。
この補間作業の精度は、質問が妥当かどうかの人間の判断とよく相関し、これらのモデルが3つのサブドメインで比較質問を完了する際に、ほぼ人間レベルのパフォーマンスを達成するために訓練可能であることを示す。
代わりに、トレーニングされたモデルはドメイン固有であり、パフォーマンスはトレーニングセットで観察された特定のエンティティ間の共起と非常に相関している。
これは、一般的なテキストコーパスで事前訓練されたモデルと、大規模な比較問題コーパスで訓練されたモデルの両方に当てはまる。
そこで本研究では,特定のベンチマーク問題の性能に基づく,深層モデルの世界知識や言語能力の主張の難しさについて,近年の結果を裏付ける。
評価データセットを公開し、人間のインタラクションの標準におけるそのようなモデルにおける複雑な理解と推論の今後の研究を促進する。
関連論文リスト
- OpenAI-o1 AB Testing: Does the o1 model really do good reasoning in math problem solving? [2.851415653352522]
OpenAIによるOrion-1モデルは、以前の大規模言語モデルよりも堅牢な論理的推論能力を持つと言われている。
IMO(International Mathematics Olympiad)問題からなる2つのデータセットを用いて比較実験を行った。
モデルが問題や解の記憶に依存していることを示す重要な証拠は存在しないと結論付けている。
論文 参考訳(メタデータ) (2024-11-09T14:47:52Z) - Longer Fixations, More Computation: Gaze-Guided Recurrent Neural
Networks [12.57650361978445]
人間はさまざまなペースでテキストを読み、機械学習モデルはそれぞれのトークンを同じように扱う。
本稿では,この直感を固定誘導並列RNNやレイヤを用いた新しいモデルに変換する。
興味深いことに、ニューラルネットワークによって予測される固定期間は、人間の固定と多少似ている。
論文 参考訳(メタデータ) (2023-10-31T21:32:11Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Can NLP Models Correctly Reason Over Contexts that Break the Common
Assumptions? [14.991565484636745]
我々は,NLPモデルが一般的な仮定を破る文脈を正しく推論する能力について検討する。
一般的な仮定に従うコンテキストでかなりうまく機能する一方で、モデルはこれらの仮定を破るコンテキストに対して正しく推論するのに苦労しています。
具体的には、パフォーマンスギャップは20%の絶対点である。
論文 参考訳(メタデータ) (2023-05-20T05:20:37Z) - A quantitative study of NLP approaches to question difficulty estimation [0.30458514384586394]
この研究は、以前の研究で提案されたいくつかのアプローチを定量的に分析し、異なる教育領域のデータセットのパフォーマンスを比較した。
私たちは、Transformerベースのモデルが様々な教育領域で最高のパフォーマンスを示しており、DistilBERTはBERTとほぼ同等に機能していることに気付きました。
他のモデルでは、ハイブリットは単一のタイプの特徴に基づくものよりも優れており、言語的特徴に基づくものは理解された質問を読み取るのに優れ、周波数ベースの特徴(TF-IDF)と単語埋め込み(word2vec)はドメイン知識の評価において優れている。
論文 参考訳(メタデータ) (2023-05-17T14:26:00Z) - ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。
ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。
言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文 参考訳(メタデータ) (2022-12-16T05:15:41Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。