論文の概要: Surface Form Competition: Why the Highest Probability Answer Isn't
Always Right
- arxiv url: http://arxiv.org/abs/2104.08315v1
- Date: Fri, 16 Apr 2021 18:57:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 13:29:57.256450
- Title: Surface Form Competition: Why the Highest Probability Answer Isn't
Always Right
- Title(参考訳): Surface Formのコンペティション:一番高い確率の答えはいつも正しくない理由
- Authors: Ari Holtzman, Peter West, Vered Schwartz, Yejin Choi, Luke Zettlemoyer
- Abstract要約: Domain Conditional Pointwise Mutual Informationは、サーフェスフォームの競争を補償します。
キャリブレーション機能とアンキャリブレーション機能の両方でゼロショット性能の一貫したゲインを実現します。
- 参考スコア(独自算出の注目度): 70.71122438366142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have shown promising results in zero-shot settings
(Brown et al.,2020; Radford et al., 2019). For example, they can perform
multiple choice tasks simply by conditioning on a question and selecting the
answer with the highest probability.
However, ranking by string probability can be problematic due to surface form
competition-wherein different surface forms compete for probability mass, even
if they represent the same underlying concept, e.g. "computer" and "PC." Since
probability mass is finite, this lowers the probability of the correct answer,
due to competition from other strings that are valid answers (but not one of
the multiple choice options).
We introduce Domain Conditional Pointwise Mutual Information, an alternative
scoring function that directly compensates for surface form competition by
simply reweighing each option according to a term that is proportional to its a
priori likelihood within the context of the specific zero-shot task. It
achieves consistent gains in zero-shot performance over both calibrated (Zhao
et al., 2021) and uncalibrated scoring functions on all GPT-2 and GPT-3 models
over a variety of multiple choice datasets.
- Abstract(参考訳): 大きな言語モデルはゼロショット設定で有望な結果を示している(Brown et al.,2020; Radford et al., 2019)。
例えば、質問を条件付けし、最も高い確率で答えを選択することで、複数の選択タスクを実行することができる。
しかし、弦の確率によるランク付けは、同じ基礎概念である例えば、異なる曲面形式が確率質量を競うような曲面の競合によって問題となることがある。
「コンピュータ」と「pc」。
確率質量は有限であるため、正当な解である他の文字列との競合のため、正しい解の確率は減少する(しかし、複数の選択肢のうちの1つではない)。
条件付きポイントワイズ相互情報(domain conditional pointwise mutual information)は、特定のゼロショットタスクの文脈において、その事前確率に比例する項に従って、各オプションを単に緩和することで、surface form competitionを直接補償する代替的スコアリング関数である。
キャリブレーションされた (zhao et al., 2021) と、様々な選択データセットに対して、すべての gpt-2 および gpt-3 モデルの非キャリブレーションスコアリング関数の両方に対して、ゼロショット性能の一貫した向上を達成している。
関連論文リスト
- Differentiating Choices via Commonality for Multiple-Choice Question Answering [54.04315943420376]
複数選択の質問応答は、正しい答えを選択するための貴重な手がかりを提供することができる。
既存のモデルでは、それぞれの選択を別々にランク付けし、他の選択によって提供されるコンテキストを見渡すことが多い。
本稿では,DCQAと呼ばれる共通性を識別・排除することで,選択を識別する新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-08-21T12:05:21Z) - Increasing Probability Mass on Answer Choices Does Not Always Improve
Accuracy [60.18632773935895]
同一の意味を持つ複数の曲面に確率質量を分散させることは、モデルの真の性能の過小評価を引き起こすと考えられている。
我々はSFCの数学的形式論を提案し、初めてその影響を定量化し、束縛することができる。
提案手法は,各回答選択の確率質量をaで増加させるという単純な方法であり,プロンプトに含め,bに含めた確率質量をbで増加させる手法である。
論文 参考訳(メタデータ) (2023-05-24T00:27:00Z) - Reconciling Individual Probability Forecasts [78.0074061846588]
データに同意する2つの当事者は、個々の確率をモデル化する方法に異を唱えることができない。
個々の確率は不可知であるが、計算的かつデータ効率のよいプロセスで競合できると結論付ける。
論文 参考訳(メタデータ) (2022-09-04T20:20:35Z) - Conflict-free joint sampling for preference satisfaction through quantum
interference [0.0]
最適共同意思決定法には2つの問題がある。
まず、選択数が増えるにつれて、最適な関節選択確率行列を計算する計算コストが爆発する。
第二に、最適な関節選択確率行列を導出するためには、全てのプレイヤーが確率的嗜好を開示しなければならない。
論文 参考訳(メタデータ) (2022-08-05T10:38:17Z) - What Can Secondary Predictions Tell Us? An Exploration on
Question-Answering with SQuAD-v2.0 [0.0]
我々は、例の黄金のランク(GR)を、根拠となる真実と正確に一致する最も自信のある予測のランクとして定義する。
我々が分析した16の変圧器モデルでは、第2の予測空間における正確に一致した黄金の答えの大部分は、最上位に非常に近い位置にある。
GRIM(Golden Rank Interpolated Median)と呼ばれる,テストセット全体の新しい集計統計を導出する。
論文 参考訳(メタデータ) (2022-06-29T01:17:47Z) - Feature Selection by a Mechanism Design [0.0]
プレイヤーが候補であり、ペイオフ関数がパフォーマンス測定である選択問題について検討する。
理論上、無関係な特徴はゲーム内のダミープレイヤーと等価であり、全てのモデリング状況には何も寄与しない。
メカニズム設計において、最終的なゴールは、期待されるモデル性能と、期待される個々の限界効果の総和とを完全に一致させる。
論文 参考訳(メタデータ) (2021-10-05T23:53:14Z) - A Semantic-based Method for Unsupervised Commonsense Question Answering [40.18557352036813]
ラベル付きタスクデータに依存しないため、教師なしのコモンセンス質問応答は魅力的である。
教師なしコモンセンス質問応答のためのSemantic-based Question Answering法(SEQA)を提案する。
論文 参考訳(メタデータ) (2021-05-31T08:21:52Z) - Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。
提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文 参考訳(メタデータ) (2021-04-18T07:00:48Z) - On Steady-State Evolutionary Algorithms and Selective Pressure: Why
Inverse Rank-Based Allocation of Reproductive Trials is Best [9.290757451344673]
我々は、定常EAのグローバル最適化能力に対する選択的な圧力の影響を分析する。
標準のバイモーダルベンチマーク関数2maxでは、均一な親選択を使用することで両方のオプティマを見つける確率の高い指数が得られることを厳密に証明します。
一方,最悪の個人を親として選択することは,合理的な人口規模に対して圧倒的な確率で効率的なグローバル最適化につながることを実証する。
論文 参考訳(メタデータ) (2021-03-18T17:27:05Z) - MS-Ranker: Accumulating Evidence from Potentially Correct Candidates for
Answer Selection [59.95429407899612]
そこで我々は,MS-Ranker という,新しい強化学習に基づくマルチステップランキングモデルを提案する。
我々は、候補の潜在的な正しさを明示的に考慮し、ゲーティング機構で証拠を更新する。
我々のモデルは、外部リソースに依存しない既存の手法を著しく上回ります。
論文 参考訳(メタデータ) (2020-10-10T10:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。