論文の概要: Robust Pronoun Use Fidelity with English LLMs: Are they Reasoning, Repeating, or Just Biased?
- arxiv url: http://arxiv.org/abs/2404.03134v1
- Date: Thu, 4 Apr 2024 01:07:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 16:03:13.256722
- Title: Robust Pronoun Use Fidelity with English LLMs: Are they Reasoning, Repeating, or Just Biased?
- Title(参考訳): Robust Pronoun Use Fidelity with English LLMs: You are Reasoning, Repeating, or Just Biased?
- Authors: Vagrant Gautam, Eileen Bingert, Dawei Zhu, Anne Lauscher, Dietrich Klakow,
- Abstract要約: 代名詞使用の忠実度を評価するために,500万件以上のデータセットを提示する。
モデルはほとんどが、気晴らしのない存在下で、以前は特定されていた代名詞を忠実に再利用できることがわかりました。
しかし、彼女(彼女)、特異種(彼女)、新生代(新生代)の処理は著しく悪化する。
- 参考スコア(独自算出の注目度): 26.583741801345507
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Robust, faithful and harm-free pronoun use for individuals is an important goal for language models as their use increases, but prior work tends to study only one or two of these components at a time. To measure progress towards the combined goal, we introduce the task of pronoun use fidelity: given a context introducing a co-referring entity and pronoun, the task is to reuse the correct pronoun later, independent of potential distractors. We present a carefully-designed dataset of over 5 million instances to evaluate pronoun use fidelity in English, and we use it to evaluate 37 popular large language models across architectures (encoder-only, decoder-only and encoder-decoder) and scales (11M-70B parameters). We find that while models can mostly faithfully reuse previously-specified pronouns in the presence of no distractors, they are significantly worse at processing she/her/her, singular they and neopronouns. Additionally, models are not robustly faithful to pronouns, as they are easily distracted. With even one additional sentence containing a distractor pronoun, accuracy drops on average by 34%. With 5 distractor sentences, accuracy drops by 52% for decoder-only models and 13% for encoder-only models. We show that widely-used large language models are still brittle, with large gaps in reasoning and in processing different pronouns in a setting that is very simple for humans, and we encourage researchers in bias and reasoning to bridge them.
- Abstract(参考訳): 個人に対するロバストで忠実で無害な代名詞の使用は、使用が増加するにつれて言語モデルにとって重要な目標である。
組み合わせた目的に向けての進捗を測定するために,共参照エンティティと代名詞を導入するコンテキストが与えられた場合,そのタスクは,潜在的な乱用者とは無関係に,後で正しい代名詞を再利用することである。
我々は,500万以上のインスタンスを慎重に設計し,代名詞使用の忠実度を評価し,アーキテクチャ(エンコーダのみ,デコーダのみ,エンコーダのみ,エンコーダ-デコーダ)とスケール(11M-70Bパラメータ)の37大言語モデルを評価する。
モデルでは,従来特定されていた代名詞を気晴らしのない存在下で忠実に再利用することができるが,その処理能力は著しく低下し,特異な代名詞や新代名詞の処理が困難であることがわかった。
さらに、モデルは代名詞に忠実に忠実ではない。
気を散らす代名詞を含む追加の文でさえ、平均して34%の精度が低下する。
5つの散逸した文で、デコーダのみのモデルでは52%、エンコーダのみのモデルでは13%の精度が低下する。
我々は、広く使われている大きな言語モデルは依然として脆弱であり、推論や、人間にとって非常に簡単な設定で異なる代名詞を処理する際に大きなギャップがあることを示し、偏見や推論の研究者にそれらを橋渡しするように促している。
関連論文リスト
- SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - PronounFlow: A Hybrid Approach for Calibrating Pronouns in Sentences [0.0]
PronounFlowは、代名詞と実体で英語の文を読み、それらのうちどれが互いに結びついていないかを識別し、バイアスを避けるためにどの文を使うかを提案するシステムである。
実験の結果,PronounFlowは文中の代名詞を私たちを取り巻く集合的人間の知識に基づいて置き換えるだけでなく,代名詞の曖昧さを解消するシステムの実現にも有効であることがわかった。
論文 参考訳(メタデータ) (2023-08-29T11:46:27Z) - MISGENDERED: Limits of Large Language Models in Understanding Pronouns [46.276320374441056]
我々は、英語のジェンダーニュートラル代名詞を正しく活用する能力について、人気言語モデルの評価を行った。
提案するMISGENDEREDは,大言語モデルが好む代名詞を正しく活用する能力を評価するためのフレームワークである。
論文 参考訳(メタデータ) (2023-06-06T18:27:52Z) - A Survey on Zero Pronoun Translation [69.09774294082965]
ゼロ代名詞(ZP)はプロドロップ言語では省略されることが多いが、非プロドロップ言語ではリコールされるべきである。
本研究は, 神経革命後のゼロ代名詞翻訳(ZPT)における主要な研究について述べる。
1) ZPTは大規模言語モデルの発展傾向と一致している; 2) データの制限は言語やドメインの学習バイアスを引き起こす; 3) 性能改善は単一のベンチマークで報告されることが多いが、高度な手法はまだ実世界の利用には程遠い。
論文 参考訳(メタデータ) (2023-05-17T13:19:01Z) - Do language models make human-like predictions about the coreferents of
Italian anaphoric zero pronouns? [0.6091702876917281]
12の現代言語モデルが、ゼロ代名詞の文に晒されたときの人間の振舞いを反映する期待を示すかどうかを検証した。
XGLM 2.9B、4.5B、7.5Bの3つのモデルが、全ての実験から人間の行動を捉えている。
この結果は、コア推論に対する人間の期待は、言語への露出から導き出すことができ、また、人間の振る舞いをよりよく反映できる言語モデルの特徴を示すことを示唆している。
論文 参考訳(メタデータ) (2022-08-30T22:06:07Z) - Welcome to the Modern World of Pronouns: Identity-Inclusive Natural
Language Processing beyond Gender [23.92148222207458]
自然言語処理における3人称代名詞問題の概要について概説する。
既存および新規なモデリング手法の評価を行う。
我々は、より差別のないアプローチが確立されたベンチマークデータに与える影響を定量化する。
論文 参考訳(メタデータ) (2022-02-24T06:42:11Z) - They, Them, Theirs: Rewriting with Gender-Neutral English [56.14842450974887]
私たちは、英語でジェンダーインクルージョンを促進する一般的な方法である特異点についてケーススタディを行います。
本研究では, 人為的データを持たない1%の単語誤り率で, ジェンダーニュートラルな英語を学習できるモデルについて述べる。
論文 参考訳(メタデータ) (2021-02-12T21:47:48Z) - Transformer-GCRF: Recovering Chinese Dropped Pronouns with General
Conditional Random Fields [54.03719496661691]
本稿では,隣接する発話における代名詞間の依存関係をモデル化するために,トランスフォーマーネットワークの強みと一般条件ランダムフィールド(GCRF)を組み合わせる新しい枠組みを提案する。
3つの中国語会話データセットの結果、Transformer-GCRFモデルは、最先端のドロップした代名詞回復モデルよりも優れていた。
論文 参考訳(メタデータ) (2020-10-07T07:06:09Z) - A Brief Survey and Comparative Study of Recent Development of Pronoun
Coreference Resolution [55.39835612617972]
PCR(Pronoun Coreference Resolution)は、プロノミナルな表現を、それらが参照するすべての言及に対して解決するタスクである。
1つの重要な自然言語理解(NLU)コンポーネントとして、代名詞分解は多くの下流タスクにおいて不可欠であり、既存のモデルでは依然として困難である。
我々は、現在のモデルが標準評価セットで優れたパフォーマンスを達成しているにもかかわらず、実際のアプリケーションで使用する準備ができていないことを示すために、広範な実験を行っている。
論文 参考訳(メタデータ) (2020-09-27T01:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。