論文の概要: Robust Pronoun Fidelity with English LLMs: Are they Reasoning, Repeating, or Just Biased?
- arxiv url: http://arxiv.org/abs/2404.03134v3
- Date: Sat, 05 Oct 2024 20:30:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:00:31.294733
- Title: Robust Pronoun Fidelity with English LLMs: Are they Reasoning, Repeating, or Just Biased?
- Title(参考訳): 英語のLLMとRobust Pronoun Fidelity: Reasoning, Repeating, Just Biased?
- Authors: Vagrant Gautam, Eileen Bingert, Dawei Zhu, Anne Lauscher, Dietrich Klakow,
- Abstract要約: 英語における代名詞の忠実度を測定するために,500万件以上のデータセットを提示する。
その結果, 代名詞の忠実度は, 人間が100%近い精度を達成できるような, 単純で自然主義的な環境では, 頑健ではないことがわかった。
- 参考スコア(独自算出の注目度): 26.583741801345507
- License:
- Abstract: Robust, faithful and harm-free pronoun use for individuals is an important goal for language model development as their use increases, but prior work tends to study only one or two of these characteristics at a time. To measure progress towards the combined goal, we introduce the task of pronoun fidelity: given a context introducing a co-referring entity and pronoun, the task is to reuse the correct pronoun later. We present RUFF, a carefully-designed dataset of over 5 million instances to measure robust pronoun fidelity in English, and we evaluate 37 model variants from nine popular families, across architectures (encoder-only, decoder-only and encoder-decoder) and scales (11M-70B parameters). When an individual is introduced with a pronoun, models can mostly faithfully reuse this pronoun in the next sentence, but they are significantly worse with she/her/her, singular they and neopronouns. Moreover, models are easily distracted by non-adversarial sentences discussing other people; even one sentence with a distractor pronoun causes accuracy to drop on average by 34 percentage points. Our results show that pronoun fidelity is not robust, in a simple, naturalistic setting where humans achieve nearly 100% accuracy. We encourage researchers to bridge the gaps we find and to carefully evaluate reasoning in settings where superficial repetition might inflate perceptions of model performance.
- Abstract(参考訳): 個人に対するロバストで忠実で無害な代名詞の使用は、使用が増加するにつれて言語モデル開発にとって重要な目標である。
組み合わせた目的に向けての進捗を測定するために,共参照エンティティと代名詞を導入したコンテキストが与えられた場合,そのタスクは後に正しい代名詞を再利用する。
RUFFは、500万以上のインスタンスを慎重に設計し、英語で頑健な代名詞の忠実度を計測し、アーキテクチャ(エンコーダのみ、デコーダのみ、エンコーダのみ、エンコーダ-デコーダ)とスケール(11M-70Bパラメータ)の9つの人気ファミリーから37のモデル変種を評価する。
個人が代名詞を伴って導入された場合、モデルは次の文でほぼ忠実にこの代名詞を再利用することができるが、彼女(彼女)、彼女(彼女)、彼女(彼女)、特異人(彼女)、新代名詞(ネオプラノヌス)ではかなり悪化する。
さらに、モデルは、他人について議論する非敵対的な文によって容易に気を散らすことができ、気を散らす代名詞を持つ1つの文でさえ、平均34ポイントの精度低下を引き起こす。
その結果, 代名詞の忠実度は, 人間が100%近い精度を達成できるような, 単純で自然主義的な環境では, 頑健ではないことがわかった。
表面的な反復がモデルパフォーマンスの知覚を刺激する可能性のある環境では、研究者が発見するギャップを埋め、推論を慎重に評価することを奨励します。
関連論文リスト
- Persian Pronoun Resolution: Leveraging Neural Networks and Language Models [8.604145658574689]
本研究では,ParsBERTのような事前学習型トランスフォーマーモデルを利用して,ペルシャ代名詞分解のための最初のエンドツーエンドニューラルネットワークシステムを提案する。
本システムでは,参照検出と先行リンクの両方を共同で最適化し,従来の最先端システムよりも3.37F1スコアの改善を実現した。
論文 参考訳(メタデータ) (2024-05-17T11:56:00Z) - MISGENDERED: Limits of Large Language Models in Understanding Pronouns [46.276320374441056]
我々は、英語のジェンダーニュートラル代名詞を正しく活用する能力について、人気言語モデルの評価を行った。
提案するMISGENDEREDは,大言語モデルが好む代名詞を正しく活用する能力を評価するためのフレームワークである。
論文 参考訳(メタデータ) (2023-06-06T18:27:52Z) - A Survey on Zero Pronoun Translation [69.09774294082965]
ゼロ代名詞(ZP)はプロドロップ言語では省略されることが多いが、非プロドロップ言語ではリコールされるべきである。
本研究は, 神経革命後のゼロ代名詞翻訳(ZPT)における主要な研究について述べる。
1) ZPTは大規模言語モデルの発展傾向と一致している; 2) データの制限は言語やドメインの学習バイアスを引き起こす; 3) 性能改善は単一のベンチマークで報告されることが多いが、高度な手法はまだ実世界の利用には程遠い。
論文 参考訳(メタデータ) (2023-05-17T13:19:01Z) - Welcome to the Modern World of Pronouns: Identity-Inclusive Natural
Language Processing beyond Gender [23.92148222207458]
自然言語処理における3人称代名詞問題の概要について概説する。
既存および新規なモデリング手法の評価を行う。
我々は、より差別のないアプローチが確立されたベンチマークデータに与える影響を定量化する。
論文 参考訳(メタデータ) (2022-02-24T06:42:11Z) - They, Them, Theirs: Rewriting with Gender-Neutral English [56.14842450974887]
私たちは、英語でジェンダーインクルージョンを促進する一般的な方法である特異点についてケーススタディを行います。
本研究では, 人為的データを持たない1%の単語誤り率で, ジェンダーニュートラルな英語を学習できるモデルについて述べる。
論文 参考訳(メタデータ) (2021-02-12T21:47:48Z) - NLP-CIC @ DIACR-Ita: POS and Neighbor Based Distributional Models for
Lexical Semantic Change in Diachronic Italian Corpora [62.997667081978825]
本稿では,イタリア語に対する教師なし語彙意味変化のシステムと知見について述べる。
その課題は、対象の単語が時間とともにその意味を進化させたかどうかを判断することであり、それは2つの時間固有のデータセットからの原文のみに依存する。
本研究では,各期間に対象単語を表す2つのモデルを提案し,しきい値と投票方式を用いて変化単語を予測する。
論文 参考訳(メタデータ) (2020-11-07T11:27:18Z) - Transformer-GCRF: Recovering Chinese Dropped Pronouns with General
Conditional Random Fields [54.03719496661691]
本稿では,隣接する発話における代名詞間の依存関係をモデル化するために,トランスフォーマーネットワークの強みと一般条件ランダムフィールド(GCRF)を組み合わせる新しい枠組みを提案する。
3つの中国語会話データセットの結果、Transformer-GCRFモデルは、最先端のドロップした代名詞回復モデルよりも優れていた。
論文 参考訳(メタデータ) (2020-10-07T07:06:09Z) - A Brief Survey and Comparative Study of Recent Development of Pronoun
Coreference Resolution [55.39835612617972]
PCR(Pronoun Coreference Resolution)は、プロノミナルな表現を、それらが参照するすべての言及に対して解決するタスクである。
1つの重要な自然言語理解(NLU)コンポーネントとして、代名詞分解は多くの下流タスクにおいて不可欠であり、既存のモデルでは依然として困難である。
我々は、現在のモデルが標準評価セットで優れたパフォーマンスを達成しているにもかかわらず、実際のアプリケーションで使用する準備ができていないことを示すために、広範な実験を行っている。
論文 参考訳(メタデータ) (2020-09-27T01:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。