論文の概要: Analyzing Semantic Faithfulness of Language Models via Input
Intervention on Question Answering
- arxiv url: http://arxiv.org/abs/2212.10696v2
- Date: Thu, 30 Nov 2023 10:42:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 20:58:29.811082
- Title: Analyzing Semantic Faithfulness of Language Models via Input
Intervention on Question Answering
- Title(参考訳): 質問応答に対する入力介入による言語モデルの意味的忠実度の分析
- Authors: Akshay Chaturvedi, Swarnadeep Bhar, Soumadeep Saha, Utpal Garain,
Nicholas Asher
- Abstract要約: 本研究では,意味的忠実性の概念を定式化し,テキストの意味的内容が質問応答におけるモデルの推論を因果的に判断する。
削除介入と否定介入という2つのセマンティック介入を実行すると、トランスフォーマーモデルは意味的に忠実でないことが示される。
本稿では,削除介入に対する望ましくない効果を,かなりのマージンで軽減できる介入ベーストレーニング体制を提案する。
- 参考スコア(独自算出の注目度): 4.799822253865053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models have been shown to be highly effective for
several NLP tasks. In this paper, we consider three transformer models, BERT,
RoBERTa, and XLNet, in both small and large versions, and investigate how
faithful their representations are with respect to the semantic content of
texts. We formalize a notion of semantic faithfulness, in which the semantic
content of a text should causally figure in a model's inferences in question
answering. We then test this notion by observing a model's behavior on
answering questions about a story after performing two novel semantic
interventions: deletion intervention and negation intervention. While
transformer models achieve high performance on standard question answering
tasks, we show that they fail to be semantically faithful once we perform these
interventions for a significant number of cases (~50% for deletion
intervention, and ~20% drop in accuracy for negation intervention). We then
propose an intervention-based training regime that can mitigate the undesirable
effects for deletion intervention by a significant margin (from ~ 50% to ~6%).
We analyze the inner-workings of the models to better understand the
effectiveness of intervention-based training for deletion intervention. But we
show that this training does not attenuate other aspects of semantic
unfaithfulness such as the models' inability to deal with negation intervention
or to capture the predicate-argument structure of texts. We also test
InstructGPT, via prompting, for its ability to handle the two interventions and
to capture predicate-argument structure. While InstructGPT models do achieve
very high performance on predicate-argument structure task, they fail to
respond adequately to our deletion and negation interventions.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは、いくつかのNLPタスクに非常に効果的であることが示されている。
本稿では,BERT,RoBERTa,XLNetの3つの変圧器モデルについて,小・大の両バージョンで検討し,テキストの意味的内容に関して,それらの表現がいかに忠実であるかを考察する。
質問応答におけるモデルの推論において,テキストの意味的内容が因果的に決定されるべき意味的忠実性の概念を定式化する。
次に、この概念を、削除介入と否定介入という2つの新しい意味的介入を行った後、ストーリーに関する質問に答えるモデルの動きを観察して検証する。
標準質問応答タスクにおいてトランスフォーマーモデルは高い性能を発揮するが、多くのケース(削除介入の約50%、否定介入の精度の約20%)でこれらの介入を行うと意味的に忠実でないことが示される。
そこで我々は,削除介入に対する望ましくない効果(50%から6%)を軽減できる介入ベースの訓練体制を提案する。
モデルの内部動作を分析し,削除介入に対する介入ベーストレーニングの有効性をよりよく理解する。
しかし,本トレーニングは,否定的介入に対処できない,あるいはテキストの述語句構造を捉えるなど,意味的不信感の他の側面を弱めるものではない。
また,2つの介入を処理し,述語句構造を捉えるために,インストラクションGPTをプロンプトとしてテストした。
InstructGPTモデルは述語句構造タスクにおいて非常に高い性能を達成するが、削除や否定の介入に適切に対応できない。
関連論文リスト
- Counterfactual Generation from Language Models [64.55296662926919]
対実的推論が介入と概念的に異なることを示す。
そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。
我々の実験は、このアプローチが有意義な反事実を生み出すことを示した。
論文 参考訳(メタデータ) (2024-11-11T17:57:30Z) - Towards Unifying Interpretability and Control: Evaluation via Intervention [25.4582941170387]
本稿では,解釈可能性の基本的な目標として介入を提案し,手法が介入を通してモデル動作をいかにうまく制御できるかを評価するために成功基準を導入する。
我々は4つの一般的な解釈可能性手法(オートエンコーダ、ロジットレンズ、チューニングレンズ、探索)を抽象エンコーダデコーダフレームワークに拡張する。
本稿では,介入成功率とコヒーレンス・インターベンショントレードオフの2つの新しい評価指標を紹介する。
論文 参考訳(メタデータ) (2024-11-07T04:52:18Z) - Composable Interventions for Language Models [60.32695044723103]
言語モデルのテストタイム介入は、事実の正確性を高め、有害な出力を軽減し、コストのかかる再トレーニングなしにモデルの効率を向上させる。
しかし、新しい手法の洪水にもかかわらず、様々な種類の介入が独立して発展している。
複数の介入が同じ言語モデルに与える影響を研究するためのフレームワークである構成可能な介入を導入する。
論文 参考訳(メタデータ) (2024-07-09T01:17:44Z) - Rethinking harmless refusals when fine-tuning foundation models [0.8571111167616167]
本研究では,Large Language Models (LLMs) における微調整が,望ましくない振る舞いを隠蔽するだけでなく,効果的に緩和する程度について検討する。
ここでは、モデルが推論トレースの生成を止めるか、最終的なアウトプットの非倫理的な性質を損なうような倫理的推論トレースを生成するかのどちらかである。
論文 参考訳(メタデータ) (2024-06-27T22:08:22Z) - Estimating the Causal Effects of Natural Logic Features in Transformer-Based NLI Models [16.328341121232484]
文脈介入の効果を測定するために因果効果推定手法を適用した。
本研究はトランスフォーマーの無関係な変化に対する堅牢性と影響の高い変化に対する感受性について検討する。
論文 参考訳(メタデータ) (2024-04-03T10:22:35Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Paired Examples as Indirect Supervision in Latent Decision Models [109.76417071249945]
我々は、ペア化された例を活用して、潜在的な決定を学習するためのより強力な手がかりを提供する方法を紹介します。
DROPデータセット上のニューラルネットワークを用いた合成質問応答の改善に本手法を適用した。
論文 参考訳(メタデータ) (2021-04-05T03:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。