論文の概要: Increasing Probability Mass on Answer Choices Does Not Always Improve
Accuracy
- arxiv url: http://arxiv.org/abs/2305.14596v2
- Date: Tue, 31 Oct 2023 22:07:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 17:42:35.947587
- Title: Increasing Probability Mass on Answer Choices Does Not Always Improve
Accuracy
- Title(参考訳): 回答選択における確率の増大は必ずしも正確性を改善するものではない
- Authors: Sarah Wiegreffe, Matthew Finlayson, Oyvind Tafjord, Peter Clark,
Ashish Sabharwal
- Abstract要約: 同一の意味を持つ複数の曲面に確率質量を分散させることは、モデルの真の性能の過小評価を引き起こすと考えられている。
我々はSFCの数学的形式論を提案し、初めてその影響を定量化し、束縛することができる。
提案手法は,各回答選択の確率質量をaで増加させるという単純な方法であり,プロンプトに含め,bに含めた確率質量をbで増加させる手法である。
- 参考スコア(独自算出の注目度): 60.18632773935895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When pretrained language models (LMs) are applied to discriminative tasks
such as multiple-choice questions, they place probability mass on vocabulary
tokens that aren't among the given answer choices. Spreading probability mass
across multiple surface forms with identical meaning (such as "bath" and
"bathtub") is thought to cause an underestimation of a model's true
performance, referred to as the "surface form competition" (SFC) hypothesis.
This has motivated the introduction of various probability normalization
methods. However, many core questions remain unanswered. How do we measure SFC?
Are there direct ways of reducing it, and does doing so improve task
performance?
We propose a mathematical formalism for SFC which allows us to quantify and
bound its impact for the first time. We identify a simple method for reducing
it -- namely, increasing probability mass on the given answer choices by a)
including them in the prompt and b) using in-context learning with even just
one example. We show this method eliminates the impact of SFC in the majority
of instances. Our experiments on three diverse datasets and six LMs reveal
several additional surprising findings. For example, both normalization and
prompting methods for reducing SFC can be ineffective or even detrimental to
task performance for some LMs. We conclude with practical insights for
effectively prompting LMs for multiple-choice tasks.
- Abstract(参考訳): 事前訓練された言語モデル(LM)が複数選択質問のような差別的なタスクに適用されると、与えられた回答選択に含まれない語彙トークンに確率質量を置く。
複数の曲面に同じ意味を持つ確率質量(バスやバスタブなど)を分散させることは、モデルの性能の過小評価を引き起こすと考えられており、これは「曲面競合」(SFC)仮説と呼ばれる。
これは様々な確率正規化法の導入の動機となった。
しかし、多くの疑問は未解決のままである。
SFCはどのように測定するか?
タスクを削減するための直接的な方法はありますか?
我々は,その影響を初めて定量化し,限定することができるsfcの数学的形式化を提案する。
我々は、それを減らす簡単な方法、すなわち、与えられた解選択の確率質量を増大させる方法を特定する。
a) 指示書にそれらを含むこと
b) ひとつの例でも、コンテキスト内学習を使うこと。
本手法は,ほとんどの事例においてSFCの影響を排除している。
3つの多様なデータセットと6つのlsmに関する実験で、さらにいくつかの驚くべき発見が得られました。
例えば、SFCの正規化とプロンプトの手法は、一部のLMのタスク性能に非効率または有害である。
複数選択タスクのためのLMを効果的に促すための実践的な洞察で締めくくった。
関連論文リスト
- Divide and Conquer for Large Language Models Reasoning [53.27384085738965]
本稿では,大言語モデルにDivide and Conquer戦略を適用することを提案する。
まず、統計的信頼度スコアに基づいて、質問を異なるサブセットに分割する。
そして、ほぼ解決された集合を修正し、精巧に設計された手法で要求されるニュアンス処理を克服します。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - CASE: Commonsense-Augmented Score with an Expanded Answer Space [13.915710684653174]
拡張アンサー空間を有するCASE(Commonsense-Augmented Score)を提案する。
ケースは、入力中の他の単語とのセマンティックな関係に基づいて、個々の単語の重み付けを割り当てることで制限に対処する。
また、この選択と概念的に類似した語彙的に発散した回答を生成することにより、解空間を拡大する以前の作業も追従する。
論文 参考訳(メタデータ) (2023-11-03T03:15:26Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement
Learning [77.34726150561087]
In-Context Learning (RetICL) のための検索式を提案する。
我々は、マルコフ決定プロセスとして逐次サンプル選択の問題を定義し、LSTMを用いてサンプルレトリバーモデルを設計し、近似ポリシー最適化を用いてそれを訓練する。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - Momentum Contrastive Pre-training for Question Answering [54.57078061878619]
MCROSSはモーメントコントラスト学習フレームワークを導入し、クローゼのような解答確率と自然な問合せのサンプルペアを一致させる。
本手法は,教師付きシナリオとゼロショットシナリオの両方において,すべてのベースラインと比較して顕著な改善を実現している。
論文 参考訳(メタデータ) (2022-12-12T08:28:22Z) - Can Q-learning solve Multi Armed Bantids? [0.0]
現在の強化学習アルゴリズムでは,マルチアーマッド・バンディット問題を解くことができないことを示す。
これはポリシー間の差異が原因であり、2つの問題を引き起こす。
本稿では,アダプティブ・シンメトリ・リワード・ノーミング(ASRN)手法を提案する。
論文 参考訳(メタデータ) (2021-10-21T07:08:30Z) - A Semantic-based Method for Unsupervised Commonsense Question Answering [40.18557352036813]
ラベル付きタスクデータに依存しないため、教師なしのコモンセンス質問応答は魅力的である。
教師なしコモンセンス質問応答のためのSemantic-based Question Answering法(SEQA)を提案する。
論文 参考訳(メタデータ) (2021-05-31T08:21:52Z) - MS-Ranker: Accumulating Evidence from Potentially Correct Candidates for
Answer Selection [59.95429407899612]
そこで我々は,MS-Ranker という,新しい強化学習に基づくマルチステップランキングモデルを提案する。
我々は、候補の潜在的な正しさを明示的に考慮し、ゲーティング機構で証拠を更新する。
我々のモデルは、外部リソースに依存しない既存の手法を著しく上回ります。
論文 参考訳(メタデータ) (2020-10-10T10:36:58Z) - Explaining Question Answering Models through Text Generation [42.36596190720944]
大規模な事前学習言語モデル(LM)は、常識と世界知識を必要とするタスクを微調整するときに驚くほどうまく機能することが示されている。
エンドツーエンドのアーキテクチャで正しい予測ができるような、LMの知識が何であるかを説明するのは難しい。
エンド・ツー・エンドのアーキテクチャに匹敵するパフォーマンスに達するタスクをいくつか示します。
論文 参考訳(メタデータ) (2020-04-12T09:06:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。