論文の概要: Enhancing Self-Consistency and Performance of Pre-Trained Language
Models through Natural Language Inference
- arxiv url: http://arxiv.org/abs/2211.11875v1
- Date: Mon, 21 Nov 2022 21:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-11-23 16:32:32.262141
- Title: Enhancing Self-Consistency and Performance of Pre-Trained Language
Models through Natural Language Inference
- Title(参考訳): 自然言語推論による事前学習言語モデルの自己整合性と性能向上
- Authors: Eric Mitchell, Joseph J. Noh, Siyan Li, William S. Armstrong, Ananth
Agarwal, Patrick Liu, Chelsea Finn, Christopher D. Manning
- Abstract要約: 大規模な事前訓練された言語モデルは、テスト入力間の論理的一貫性を欠いていることが多い。
本研究では,事前学習したNLPモデルの一貫性と精度を高めるためのフレームワークであるConCoRDを提案する。
ConCoRDは、市販のクローズドブックQAおよびVQAモデルの精度と一貫性を一貫して向上することを示す。
- 参考スコア(独自算出の注目度): 72.61732440246954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large pre-trained language models are powerful, their predictions often
lack logical consistency across test inputs. For example, a state-of-the-art
Macaw question-answering (QA) model answers 'Yes' to 'Is a sparrow a bird?' and
'Does a bird have feet?' but answers 'No' to 'Does a sparrow have feet?'. To
address this failure mode, we propose a framework, Consistency Correction
through Relation Detection, or ConCoRD, for boosting the consistency and
accuracy of pre-trained NLP models using pre-trained natural language inference
(NLI) models without fine-tuning or re-training. Given a batch of test inputs,
ConCoRD samples several candidate outputs for each input and instantiates a
factor graph that accounts for both the model's belief about the likelihood of
each answer choice in isolation and the NLI model's beliefs about pair-wise
answer choice compatibility. We show that a weighted MaxSAT solver can
efficiently compute high-quality answer choices under this factor graph,
improving over the raw model's predictions. Our experiments demonstrate that
ConCoRD consistently boosts accuracy and consistency of off-the-shelf
closed-book QA and VQA models using off-the-shelf NLI models, notably
increasing accuracy of LXMERT on ConVQA by 5% absolute. See
https://ericmitchell.ai/emnlp-2022-concord/ for code and data.
- Abstract(参考訳): 大きな事前訓練された言語モデルは強力だが、その予測はテスト入力間の論理的一貫性を欠いていることが多い。
例えば、最先端の macaw question-answering (qa) モデルは、'yes' と 'is a sparrow a bird?' と 'does a bird have feet?' に答えるが、'no' と 'does a sparrow have feet?
この障害モードに対処するために,事前学習された自然言語推論(nli)モデルを用いて,事前学習されたnlpモデルの一貫性と正確性を高めるために,関係検出による一貫性補正(concord)という枠組みを提案する。
テスト入力のバッチが与えられた後、ConCoRDは各入力に対するいくつかの候補出力をサンプリングし、各解選択の可能性に関するモデルの信念とペアワイズな解選択互換性に関するNLIモデルの信念の両方をインスタンス化する。
重み付きmaxsatソルバは,この因子グラフの下での質の高い回答選択を効率的に計算でき,生モデルの予測よりも改善できることを示す。
実験の結果,ConCoRDは市販NLIモデルを用いた市販のクローズドブックQAおよびVQAモデルの精度と一貫性を一貫して向上し,特にConVQA上でのLXMERTの精度を5%向上させることがわかった。
コードとデータについてはhttps://ericmitchell.ai/emnlp-2022-concord/を参照。
関連論文リスト
- Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - Self-Consistency of Large Language Models under Ambiguity [4.141513298907867]
本研究は,不特定の場合の自己整合性評価ベンチマークを示す。
あいまいな整数列補完タスクを用いて,OpenAIモデルスイート上で一連の動作実験を行う。
平均一貫性は67%から82%の範囲であり、モデルの一貫性がランダムであれば予測されるよりもはるかに高い。
論文 参考訳(メタデータ) (2023-10-20T11:57:56Z) - Learn What Is Possible, Then Choose What Is Best: Disentangling
One-To-Many Relations in Language Through Text-based Games [3.615981646205045]
望ましい振る舞いをエミュレートできる言語モデルをトレーニングするアプローチを提案する。
テキストベースのゲームをテストベッドとして使用することで、PASAは個別の潜伏変数を用いて異なる動作範囲をキャプチャする。
その結果,従来の最先端モデルよりも49%の実証的改善が得られた。
論文 参考訳(メタデータ) (2023-04-14T17:11:26Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - Language Models (Mostly) Know What They Know [10.836210010868932]
言語モデルが自身の主張の有効性を評価し,どの疑問に正しく答えられるかを予測する。
モデルが「P(IK)」を予測できるかどうか,質問に対する「私が知っている」確率を,特定の回答に言及せずに検討する。
論文 参考訳(メタデータ) (2022-07-11T22:59:39Z) - Embarrassingly Simple Performance Prediction for Abductive Natural
Language Inference [10.536415845097661]
本研究では,NLIモデルの性能を微調整せずに予測する手法を提案する。
その結果,コサイン類似度手法の精度はパーソン相関係数0.65の分類手法の精度と強く相関していることがわかった。
提案手法は,モデル選択の過程において,大幅な時間節約につながる可能性がある。
論文 参考訳(メタデータ) (2022-02-21T18:10:24Z) - Probabilistic Graph Reasoning for Natural Proof Generation [22.1374469158861]
共同回答予測と証明生成のための新しい手法であるPRobrを提案する。
PRobr はすべての可能な証明グラフと答えに対する合同確率分布を定義する。
複数のデータセットの実験は、PRobrの有効性を検証する。
論文 参考訳(メタデータ) (2021-07-06T06:34:41Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。