論文の概要: Understanding Prior Bias and Choice Paralysis in Transformer-based
Language Representation Models through Four Experimental Probes
- arxiv url: http://arxiv.org/abs/2210.01258v1
- Date: Mon, 3 Oct 2022 22:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 13:14:11.996759
- Title: Understanding Prior Bias and Choice Paralysis in Transformer-based
Language Representation Models through Four Experimental Probes
- Title(参考訳): 4つの実験プローブによるトランスフォーマー言語表現モデルにおける先行バイアスと選択麻痺の理解
- Authors: Ke Shen, Mayank Kejriwal
- Abstract要約: 先行バイアスや選択麻痺などの問題を調べるための4つの混乱プローブを提示する。
このモデルでは,他の問題に加えて,事前バイアスや選択麻痺の程度が小さいが,なおかつ重要な程度に有意な偏見が示される。
この結果から,言語モデルがフロントエンドシステムや意思決定に使用される前に,より強力なテストプロトコルや追加ベンチマークが必要になる可能性が示唆された。
- 参考スコア(独自算出の注目度): 8.591839265985412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work on transformer-based neural networks has led to impressive
advances on multiple-choice natural language understanding (NLU) problems, such
as Question Answering (QA) and abductive reasoning. Despite these advances,
there is limited work still on understanding whether these models respond to
perturbed multiple-choice instances in a sufficiently robust manner that would
allow them to be trusted in real-world situations. We present four confusion
probes, inspired by similar phenomena first identified in the behavioral
science community, to test for problems such as prior bias and choice
paralysis. Experimentally, we probe a widely used transformer-based
multiple-choice NLU system using four established benchmark datasets. Here we
show that the model exhibits significant prior bias and to a lesser, but still
highly significant degree, choice paralysis, in addition to other problems. Our
results suggest that stronger testing protocols and additional benchmarks may
be necessary before the language models are used in front-facing systems or
decision making with real world consequences.
- Abstract(参考訳): トランスフォーマーベースのニューラルネットワークに関する最近の研究は、質問回答(QA)や帰納的推論(abductive reasoning)など、多目的自然言語理解(NLU)問題に顕著な進歩をもたらした。
これらの進歩にもかかわらず、これらのモデルが現実の状況において信頼されるような十分に堅牢な方法で、摂動した複数の選択インスタンスに応答するかどうかを理解することはまだ限られている。
行動科学コミュニティで最初に特定された類似現象に触発された4つの混乱プローブを用いて,先行バイアスや選択麻痺などの問題を検証した。
実験では, 4つのベンチマークデータセットを用いて, 広く利用されている変圧器を用いた多重選択型NLUシステムについて検討した。
ここでは,このモデルが有意な先行バイアスを示し,他の問題に加えて,より小さいが極めて有意な選択麻痺を示すことを示す。
この結果から,言語モデルがフロントエンドシステムで使用される前に,テストプロトコルやベンチマークを追加する必要がある可能性が示唆された。
関連論文リスト
- InnerThoughts: Disentangling Representations and Predictions in Large Language Models [20.39568933276831]
我々は、トレーニング質問の集合に基づいて、小さな独立したニューラルネットワーク予測モジュールを学習することを提案する。
実際、そのようなフレームワークは、LLMの表現能力を予測能力から切り離す。
論文 参考訳(メタデータ) (2025-01-29T21:01:44Z) - QUITE: Quantifying Uncertainty in Natural Language Text in Bayesian Reasoning Scenarios [15.193544498311603]
本稿では,カテゴリー的確率変数と複雑な関係を持つ実世界のベイズ推論シナリオのデータセットであるQUITEを提案する。
我々は幅広い実験を行い、論理ベースのモデルが全ての推論型において、アウト・オブ・ボックスの大規模言語モデルより優れていることを発見した。
以上の結果から,ニューロシンボリックモデルが複雑な推論を改善する上で有望な方向であることを示す。
論文 参考訳(メタデータ) (2024-10-14T12:44:59Z) - HANS, are you clever? Clever Hans Effect Analysis of Neural Systems [1.6267479602370545]
大規模言語モデル(It-LLM)は、認知状態、意図、そしてすべての人々の反応を推論する優れた能力を示しており、人間は日々の社会的相互作用を効果的にガイドし理解することができる。
モデル能力の確固たる評価を構築するために、MCQ(Multiple-choice Question)ベンチマークがいくつか提案されている。
しかし、初期の研究は、I-LLMに固有の「順序バイアス」があることを示しており、適切な評価に挑戦している。
論文 参考訳(メタデータ) (2023-09-21T20:52:18Z) - A Simple yet Effective Self-Debiasing Framework for Transformer Models [49.09053367249642]
現在のTransformerベースの自然言語理解(NLU)モデルは、データセットバイアスに大きく依存している。
本稿では,トランスフォーマーベースNLUモデルのための簡易かつ効果的な自己退化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-02T20:31:58Z) - Exposing Attention Glitches with Flip-Flop Language Modeling [55.0688535574859]
この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。
ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。
その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T17:44:35Z) - All Roads Lead to Rome? Exploring the Invariance of Transformers'
Representations [69.3461199976959]
本稿では, ビジェクション仮説を学習するために, 非可逆ニューラルネットワーク BERT-INN に基づくモデルを提案する。
BERT-INNの利点は理論上も広範な実験を通じても明らかである。
論文 参考訳(メタデータ) (2023-05-23T22:30:43Z) - Pushing the Limits of Rule Reasoning in Transformers through Natural
Language Satisfiability [30.01308882849197]
本稿では,アルゴリズム推論データセットを作成するための新しい手法を提案する。
鍵となる考え方は、ハードプロポーズSAT問題の経験的なサンプリングや、言語に関する複雑性理論的な研究から洞察を得ることである。
十分なトレーニングデータを得た現在のトランスフォーマーは、結果のNLSat問題を解決するのに驚くほど堅牢であることがわかった。
論文 参考訳(メタデータ) (2021-12-16T17:47:20Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z) - Is Supervised Syntactic Parsing Beneficial for Language Understanding?
An Empirical Investigation [71.70562795158625]
従来のNLPは、高レベルセマンティック言語理解(LU)の成功に必要な構文解析を長い間保持(教師付き)してきた。
近年のエンドツーエンドニューラルネットワークの出現、言語モデリング(LM)による自己監視、および幅広いLUタスクにおける成功は、この信念に疑問を投げかけている。
本研究では,LM-Pretrained Transformer Network の文脈における意味的LUに対する教師あり構文解析の有用性を実証的に検討する。
論文 参考訳(メタデータ) (2020-08-15T21:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。