Fugu-MT 論文翻訳(概要): Increasing Probability Mass on Answer Choices Does Not Always Improve Accuracy

論文の概要: Increasing Probability Mass on Answer Choices Does Not Always Improve Accuracy

arxiv url: http://arxiv.org/abs/2305.14596v2
Date: Tue, 31 Oct 2023 22:07:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 17:42:35.947587
Title: Increasing Probability Mass on Answer Choices Does Not Always Improve Accuracy
Title（参考訳）: 回答選択における確率の増大は必ずしも正確性を改善するものではない
Authors: Sarah Wiegreffe, Matthew Finlayson, Oyvind Tafjord, Peter Clark, Ashish Sabharwal
Abstract要約: 同一の意味を持つ複数の曲面に確率質量を分散させることは、モデルの真の性能の過小評価を引き起こすと考えられている。我々はSFCの数学的形式論を提案し、初めてその影響を定量化し、束縛することができる。提案手法は,各回答選択の確率質量をaで増加させるという単純な方法であり,プロンプトに含め,bに含めた確率質量をbで増加させる手法である。
参考スコア（独自算出の注目度）: 60.18632773935895
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When pretrained language models (LMs) are applied to discriminative tasks such as multiple-choice questions, they place probability mass on vocabulary tokens that aren't among the given answer choices. Spreading probability mass across multiple surface forms with identical meaning (such as "bath" and "bathtub") is thought to cause an underestimation of a model's true performance, referred to as the "surface form competition" (SFC) hypothesis. This has motivated the introduction of various probability normalization methods. However, many core questions remain unanswered. How do we measure SFC? Are there direct ways of reducing it, and does doing so improve task performance? We propose a mathematical formalism for SFC which allows us to quantify and bound its impact for the first time. We identify a simple method for reducing it -- namely, increasing probability mass on the given answer choices by a) including them in the prompt and b) using in-context learning with even just one example. We show this method eliminates the impact of SFC in the majority of instances. Our experiments on three diverse datasets and six LMs reveal several additional surprising findings. For example, both normalization and prompting methods for reducing SFC can be ineffective or even detrimental to task performance for some LMs. We conclude with practical insights for effectively prompting LMs for multiple-choice tasks.
Abstract（参考訳）: 事前訓練された言語モデル(LM)が複数選択質問のような差別的なタスクに適用されると、与えられた回答選択に含まれない語彙トークンに確率質量を置く。複数の曲面に同じ意味を持つ確率質量(バスやバスタブなど)を分散させることは、モデルの性能の過小評価を引き起こすと考えられており、これは「曲面競合」(SFC)仮説と呼ばれる。これは様々な確率正規化法の導入の動機となった。しかし、多くの疑問は未解決のままである。 SFCはどのように測定するか? タスクを削減するための直接的な方法はありますか? 我々は,その影響を初めて定量化し,限定することができるsfcの数学的形式化を提案する。我々は、それを減らす簡単な方法、すなわち、与えられた解選択の確率質量を増大させる方法を特定する。 a) 指示書にそれらを含むこと b) ひとつの例でも、コンテキスト内学習を使うこと。本手法は,ほとんどの事例においてSFCの影響を排除している。 3つの多様なデータセットと6つのlsmに関する実験で、さらにいくつかの驚くべき発見が得られました。例えば、SFCの正規化とプロンプトの手法は、一部のLMのタスク性能に非効率または有害である。複数選択タスクのためのLMを効果的に促すための実践的な洞察で締めくくった。

関連論文リスト

Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
SimpleStrat: Diversifying Language Model Generation with Stratification [26.933029655072488]
それまでのアプローチは、多様性を高めるために温度の上昇に依存していた。温度が上昇するにつれて、このアプローチは低い品質の個々の世代を生み出すことを示す。言語モデル自体を使って空間を成層体に分割する代替手法であるSimpleStratを提案する。
論文参考訳（メタデータ） (2024-10-11T17:54:14Z)
Answer, Assemble, Ace: Understanding How LMs Answer Multiple Choice Questions [103.20281438405111]
MCQA(Multiple-choice Question answering)は、高性能トランスフォーマー言語モデルのキーコンピテンスである。我々は,正解を予測するための関連情報をエンコードするキー隠れ状態のローカライズに語彙予測とアクティベーションパッチ手法を用いる。後続の層は語彙空間における予測応答記号の確率を増大させ、この確率の増加は、特異な役割を持つ注目ヘッドのスパースセットと関連していることを示す。
論文参考訳（メタデータ） (2024-07-21T00:10:23Z)
FSM: A Finite State Machine Based Zero-Shot Prompting Paradigm for Multi-Hop Question Answering [26.398873686905063]
大きな言語モデル (LLM) とチェーン・オブ・シント (COT) のプロンプトは、単純な自然言語推論タスクにおいて印象的な能力を示している。本稿では,複雑なタスクに対するLLMの推論能力を高めるために,FSM(Finite State Machine)というプロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-03T10:01:01Z)
CASE: Commonsense-Augmented Score with an Expanded Answer Space [13.915710684653174]
拡張アンサー空間を有するCASE(Commonsense-Augmented Score)を提案する。ケースは、入力中の他の単語とのセマンティックな関係に基づいて、個々の単語の重み付けを割り当てることで制限に対処する。また、この選択と概念的に類似した語彙的に発散した回答を生成することにより、解空間を拡大する以前の作業も追従する。
論文参考訳（メタデータ） (2023-11-03T03:15:26Z)
Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文参考訳（メタデータ） (2023-10-20T06:49:32Z)
Momentum Contrastive Pre-training for Question Answering [54.57078061878619]
MCROSSはモーメントコントラスト学習フレームワークを導入し、クローゼのような解答確率と自然な問合せのサンプルペアを一致させる。本手法は,教師付きシナリオとゼロショットシナリオの両方において,すべてのベースラインと比較して顕著な改善を実現している。
論文参考訳（メタデータ） (2022-12-12T08:28:22Z)
Can Q-learning solve Multi Armed Bantids? [0.0]
現在の強化学習アルゴリズムでは,マルチアーマッド・バンディット問題を解くことができないことを示す。これはポリシー間の差異が原因であり、2つの問題を引き起こす。本稿では,アダプティブ・シンメトリ・リワード・ノーミング(ASRN)手法を提案する。
論文参考訳（メタデータ） (2021-10-21T07:08:30Z)
An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文参考訳（メタデータ） (2021-08-15T15:05:02Z)
A Semantic-based Method for Unsupervised Commonsense Question Answering [40.18557352036813]
ラベル付きタスクデータに依存しないため、教師なしのコモンセンス質問応答は魅力的である。教師なしコモンセンス質問応答のためのSemantic-based Question Answering法(SEQA)を提案する。
論文参考訳（メタデータ） (2021-05-31T08:21:52Z)
MS-Ranker: Accumulating Evidence from Potentially Correct Candidates for Answer Selection [59.95429407899612]
そこで我々は,MS-Ranker という,新しい強化学習に基づくマルチステップランキングモデルを提案する。我々は、候補の潜在的な正しさを明示的に考慮し、ゲーティング機構で証拠を更新する。我々のモデルは、外部リソースに依存しない既存の手法を著しく上回ります。
論文参考訳（メタデータ） (2020-10-10T10:36:58Z)
L2R2: Leveraging Ranking for Abductive Reasoning [65.40375542988416]
学習システムの帰納的推論能力を評価するために,帰納的自然言語推論タスク(alpha$NLI)を提案する。新たな$L2R2$アプローチは、Learning-to-rankフレームワークの下で提案されている。 ARTデータセットの実験は、公開リーダボードの最先端に到達します。
論文参考訳（メタデータ） (2020-05-22T15:01:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。