論文の概要: Attentiveness to Answer Choices Doesn't Always Entail High QA Accuracy
- arxiv url: http://arxiv.org/abs/2305.14596v1
- Date: Wed, 24 May 2023 00:27:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 20:57:08.520838
- Title: Attentiveness to Answer Choices Doesn't Always Entail High QA Accuracy
- Title(参考訳): 回答への注意は常に高いQA精度を必要としない
- Authors: Sarah Wiegreffe, Matthew Finlayson, Oyvind Tafjord, Peter Clark,
Ashish Sabharwal
- Abstract要約: 大規模言語モデル(LM)は、複数選択質問などの識別タスクにゼロまたは少数ショット設定で適用される。
彼らの注意力は、有効な選択ではない多くの語彙トークンに分散している。
本稿では,この現象を研究するための数学的フォーマリズムを提案し,注意力の定量化のための計量値を提供し,それを高めるための簡単な手法を同定する。
- 参考スコア(独自算出の注目度): 45.64135148453261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When large language models (LMs) are applied in zero- or few-shot settings to
discriminative tasks such as multiple-choice questions, their attentiveness
(i.e., probability mass) is spread across many vocabulary tokens that are not
valid choices. Such a spread across multiple surface forms with identical
meaning is thought to cause an underestimation of a model's true performance,
referred to as the "surface form competition" (SFC) hypothesis. This has
motivated the introduction of various probability normalization methods.
However, many core questions remain unanswered. How do we measure SFC or
attentiveness? Are there direct ways of increasing attentiveness on valid
choices? Does increasing attentiveness always improve task accuracy? We propose
a mathematical formalism for studying this phenomenon, provide a metric for
quantifying attentiveness, and identify a simple method for increasing it --
namely, in-context learning with even just one example containing answer
choices. The formalism allows us to quantify SFC and bound its impact. Our
experiments on three diverse datasets and six LMs reveal several surprising
findings. For example, encouraging models to generate a valid answer choice
can, in fact, be detrimental to task performance for some LMs, and prior
probability normalization methods are less effective (sometimes even
detrimental) to instruction-tuned LMs. We conclude with practical insights for
effectively using prompted LMs for multiple-choice tasks.
- Abstract(参考訳): 大きな言語モデル (LM) をゼロまたは少数ショットの設定で多重選択質問などの識別タスクに適用すると、その注意力(確率質量)は有効な選択ではない多くの語彙トークンに分散する。
同一の意味を持つ複数の曲面形式にまたがるそのような広がりは、モデルの真の性能を過小評価する原因であると考えられており、これは「surface form competition (sfc)」仮説と呼ばれる。
これは様々な確率正規化法の導入の動機となった。
しかし、多くの疑問は未解決のままである。
SFCや注意度をどう測定するか?
有効な選択に注意を向ける直接的な方法はありますか?
注意度の向上はタスクの正確性を改善するか?
そこで本研究では,この現象を研究するための数学的形式論を提案し,注意度を定量化するための指標を提供し,回答の選択を含む1つの例さえも含む,文脈内学習の簡単な方法を特定する。
形式主義は、sfcを定量化し、その影響を限定することができる。
3つの多様なデータセットと6つのlsmに関する実験から、いくつかの驚くべき発見が得られた。
例えば、有効な解選択を生成するようモデルに促すことは、実際は一部のLMのタスク性能に有害であり、事前確率正規化法は命令調整されたLMに対してより効果的(時には有害)である。
提案手法は,複数選択タスクに誘導されたLMを効果的に活用するための実践的な洞察を与える。
関連論文リスト
- SimpleStrat: Diversifying Language Model Generation with Stratification [26.933029655072488]
それまでのアプローチは、多様性を高めるために温度の上昇に依存していた。
温度が上昇するにつれて、このアプローチは低い品質の個々の世代を生み出すことを示す。
言語モデル自体を使って空間を成層体に分割する代替手法であるSimpleStratを提案する。
論文 参考訳(メタデータ) (2024-10-11T17:54:14Z) - FSM: A Finite State Machine Based Zero-Shot Prompting Paradigm for Multi-Hop Question Answering [26.398873686905063]
大きな言語モデル (LLM) とチェーン・オブ・シント (COT) のプロンプトは、単純な自然言語推論タスクにおいて印象的な能力を示している。
本稿では,複雑なタスクに対するLLMの推論能力を高めるために,FSM(Finite State Machine)というプロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T10:01:01Z) - CASE: Commonsense-Augmented Score with an Expanded Answer Space [13.915710684653174]
拡張アンサー空間を有するCASE(Commonsense-Augmented Score)を提案する。
ケースは、入力中の他の単語とのセマンティックな関係に基づいて、個々の単語の重み付けを割り当てることで制限に対処する。
また、この選択と概念的に類似した語彙的に発散した回答を生成することにより、解空間を拡大する以前の作業も追従する。
論文 参考訳(メタデータ) (2023-11-03T03:15:26Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - Momentum Contrastive Pre-training for Question Answering [54.57078061878619]
MCROSSはモーメントコントラスト学習フレームワークを導入し、クローゼのような解答確率と自然な問合せのサンプルペアを一致させる。
本手法は,教師付きシナリオとゼロショットシナリオの両方において,すべてのベースラインと比較して顕著な改善を実現している。
論文 参考訳(メタデータ) (2022-12-12T08:28:22Z) - Can Q-learning solve Multi Armed Bantids? [0.0]
現在の強化学習アルゴリズムでは,マルチアーマッド・バンディット問題を解くことができないことを示す。
これはポリシー間の差異が原因であり、2つの問題を引き起こす。
本稿では,アダプティブ・シンメトリ・リワード・ノーミング(ASRN)手法を提案する。
論文 参考訳(メタデータ) (2021-10-21T07:08:30Z) - An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。
いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。
連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文 参考訳(メタデータ) (2021-08-15T15:05:02Z) - A Semantic-based Method for Unsupervised Commonsense Question Answering [40.18557352036813]
ラベル付きタスクデータに依存しないため、教師なしのコモンセンス質問応答は魅力的である。
教師なしコモンセンス質問応答のためのSemantic-based Question Answering法(SEQA)を提案する。
論文 参考訳(メタデータ) (2021-05-31T08:21:52Z) - MS-Ranker: Accumulating Evidence from Potentially Correct Candidates for
Answer Selection [59.95429407899612]
そこで我々は,MS-Ranker という,新しい強化学習に基づくマルチステップランキングモデルを提案する。
我々は、候補の潜在的な正しさを明示的に考慮し、ゲーティング機構で証拠を更新する。
我々のモデルは、外部リソースに依存しない既存の手法を著しく上回ります。
論文 参考訳(メタデータ) (2020-10-10T10:36:58Z) - L2R2: Leveraging Ranking for Abductive Reasoning [65.40375542988416]
学習システムの帰納的推論能力を評価するために,帰納的自然言語推論タスク(alpha$NLI)を提案する。
新たな$L2R2$アプローチは、Learning-to-rankフレームワークの下で提案されている。
ARTデータセットの実験は、公開リーダボードの最先端に到達します。
論文 参考訳(メタデータ) (2020-05-22T15:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。