Fugu-MT 論文翻訳(概要): Robust Pronoun Use Fidelity with English LLMs: Are they Reasoning, Repeating, or Just Biased?

論文の概要: Robust Pronoun Use Fidelity with English LLMs: Are they Reasoning, Repeating, or Just Biased?

arxiv url: http://arxiv.org/abs/2404.03134v1
Date: Thu, 4 Apr 2024 01:07:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-05 16:03:13.256722
Title: Robust Pronoun Use Fidelity with English LLMs: Are they Reasoning, Repeating, or Just Biased?
Title（参考訳）: Robust Pronoun Use Fidelity with English LLMs: You are Reasoning, Repeating, or Just Biased?
Authors: Vagrant Gautam, Eileen Bingert, Dawei Zhu, Anne Lauscher, Dietrich Klakow,
Abstract要約: 代名詞使用の忠実度を評価するために,500万件以上のデータセットを提示する。モデルはほとんどが、気晴らしのない存在下で、以前は特定されていた代名詞を忠実に再利用できることがわかりました。しかし、彼女(彼女)、特異種(彼女)、新生代(新生代)の処理は著しく悪化する。
参考スコア（独自算出の注目度）: 26.583741801345507
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Robust, faithful and harm-free pronoun use for individuals is an important goal for language models as their use increases, but prior work tends to study only one or two of these components at a time. To measure progress towards the combined goal, we introduce the task of pronoun use fidelity: given a context introducing a co-referring entity and pronoun, the task is to reuse the correct pronoun later, independent of potential distractors. We present a carefully-designed dataset of over 5 million instances to evaluate pronoun use fidelity in English, and we use it to evaluate 37 popular large language models across architectures (encoder-only, decoder-only and encoder-decoder) and scales (11M-70B parameters). We find that while models can mostly faithfully reuse previously-specified pronouns in the presence of no distractors, they are significantly worse at processing she/her/her, singular they and neopronouns. Additionally, models are not robustly faithful to pronouns, as they are easily distracted. With even one additional sentence containing a distractor pronoun, accuracy drops on average by 34%. With 5 distractor sentences, accuracy drops by 52% for decoder-only models and 13% for encoder-only models. We show that widely-used large language models are still brittle, with large gaps in reasoning and in processing different pronouns in a setting that is very simple for humans, and we encourage researchers in bias and reasoning to bridge them.
Abstract（参考訳）: 個人に対するロバストで忠実で無害な代名詞の使用は、使用が増加するにつれて言語モデルにとって重要な目標である。組み合わせた目的に向けての進捗を測定するために,共参照エンティティと代名詞を導入するコンテキストが与えられた場合,そのタスクは,潜在的な乱用者とは無関係に,後で正しい代名詞を再利用することである。我々は,500万以上のインスタンスを慎重に設計し,代名詞使用の忠実度を評価し,アーキテクチャ(エンコーダのみ,デコーダのみ,エンコーダのみ,エンコーダ-デコーダ)とスケール(11M-70Bパラメータ)の37大言語モデルを評価する。モデルでは,従来特定されていた代名詞を気晴らしのない存在下で忠実に再利用することができるが,その処理能力は著しく低下し,特異な代名詞や新代名詞の処理が困難であることがわかった。さらに、モデルは代名詞に忠実に忠実ではない。気を散らす代名詞を含む追加の文でさえ、平均して34%の精度が低下する。 5つの散逸した文で、デコーダのみのモデルでは52%、エンコーダのみのモデルでは13%の精度が低下する。我々は、広く使われている大きな言語モデルは依然として脆弱であり、推論や、人間にとって非常に簡単な設定で異なる代名詞を処理する際に大きなギャップがあることを示し、偏見や推論の研究者にそれらを橋渡しするように促している。

関連論文リスト

Do They Understand Them? An Updated Evaluation on Nonbinary Pronoun Handling in Large Language Models [13.89598383847666]
大規模言語モデル(LLM)は、公正さと傾きが重要となるセンシティブな状況にますますデプロイされている。代名詞の使用、特にジェンダーニュートラルやネオ代名詞は、AIの責任を負う上で重要な課題である。 LLMの代名詞忠実度を評価するための拡張および更新されたベンチマークであるMISGENDERED+を紹介する。
論文参考訳（メタデータ） (2025-08-01T17:11:42Z)
Mention Attention for Pronoun Translation [5.896961355859321]
ソース参照に余分な注意を払うために、デコーダに追加の参照注意モジュールを導入します。注記参照モジュールは、ソース参照から特徴を抽出するだけでなく、代名詞翻訳の恩恵を受けるターゲット側コンテキストも考慮する。我々は、WMT17英語-ドイツ語翻訳タスクの実験を行い、一般的な翻訳と代名詞翻訳のモデルを評価する。
論文参考訳（メタデータ） (2024-12-19T13:19:19Z)
Mitigating Bias in Queer Representation within Large Language Models: A Collaborative Agent Approach [0.0]
大きな言語モデル(LLM)は、しばしば代名詞の用法においてバイアスを持続させ、キーア個人を誤って表現したり排除したりする。本稿では、LLM出力における偏り付き代名詞の使用の特定の問題、特に伝統的性別付き代名詞の不適切な使用について論じる。本稿では,これらのバイアスを軽減するための協調的エージェントパイプラインを提案する。
論文参考訳（メタデータ） (2024-11-12T09:14:16Z)
Persian Pronoun Resolution: Leveraging Neural Networks and Language Models [8.604145658574689]
本研究では,ParsBERTのような事前学習型トランスフォーマーモデルを利用して,ペルシャ代名詞分解のための最初のエンドツーエンドニューラルネットワークシステムを提案する。本システムでは,参照検出と先行リンクの両方を共同で最適化し,従来の最先端システムよりも3.37F1スコアの改善を実現した。
論文参考訳（メタデータ） (2024-05-17T11:56:00Z)
MISGENDERED: Limits of Large Language Models in Understanding Pronouns [46.276320374441056]
我々は、英語のジェンダーニュートラル代名詞を正しく活用する能力について、人気言語モデルの評価を行った。提案するMISGENDEREDは,大言語モデルが好む代名詞を正しく活用する能力を評価するためのフレームワークである。
論文参考訳（メタデータ） (2023-06-06T18:27:52Z)
A Survey on Zero Pronoun Translation [69.09774294082965]
ゼロ代名詞(ZP)はプロドロップ言語では省略されることが多いが、非プロドロップ言語ではリコールされるべきである。本研究は, 神経革命後のゼロ代名詞翻訳(ZPT)における主要な研究について述べる。 1) ZPTは大規模言語モデルの発展傾向と一致している; 2) データの制限は言語やドメインの学習バイアスを引き起こす; 3) 性能改善は単一のベンチマークで報告されることが多いが、高度な手法はまだ実世界の利用には程遠い。
論文参考訳（メタデータ） (2023-05-17T13:19:01Z)
Welcome to the Modern World of Pronouns: Identity-Inclusive Natural Language Processing beyond Gender [23.92148222207458]
自然言語処理における3人称代名詞問題の概要について概説する。既存および新規なモデリング手法の評価を行う。我々は、より差別のないアプローチが確立されたベンチマークデータに与える影響を定量化する。
論文参考訳（メタデータ） (2022-02-24T06:42:11Z)
They, Them, Theirs: Rewriting with Gender-Neutral English [56.14842450974887]
私たちは、英語でジェンダーインクルージョンを促進する一般的な方法である特異点についてケーススタディを行います。本研究では, 人為的データを持たない1%の単語誤り率で, ジェンダーニュートラルな英語を学習できるモデルについて述べる。
論文参考訳（メタデータ） (2021-02-12T21:47:48Z)
NLP-CIC @ DIACR-Ita: POS and Neighbor Based Distributional Models for Lexical Semantic Change in Diachronic Italian Corpora [62.997667081978825]
本稿では,イタリア語に対する教師なし語彙意味変化のシステムと知見について述べる。その課題は、対象の単語が時間とともにその意味を進化させたかどうかを判断することであり、それは2つの時間固有のデータセットからの原文のみに依存する。本研究では,各期間に対象単語を表す2つのモデルを提案し,しきい値と投票方式を用いて変化単語を予測する。
論文参考訳（メタデータ） (2020-11-07T11:27:18Z)
Transformer-GCRF: Recovering Chinese Dropped Pronouns with General Conditional Random Fields [54.03719496661691]
本稿では,隣接する発話における代名詞間の依存関係をモデル化するために,トランスフォーマーネットワークの強みと一般条件ランダムフィールド(GCRF)を組み合わせる新しい枠組みを提案する。 3つの中国語会話データセットの結果、Transformer-GCRFモデルは、最先端のドロップした代名詞回復モデルよりも優れていた。
論文参考訳（メタデータ） (2020-10-07T07:06:09Z)
A Brief Survey and Comparative Study of Recent Development of Pronoun Coreference Resolution [55.39835612617972]
PCR(Pronoun Coreference Resolution)は、プロノミナルな表現を、それらが参照するすべての言及に対して解決するタスクである。 1つの重要な自然言語理解(NLU)コンポーネントとして、代名詞分解は多くの下流タスクにおいて不可欠であり、既存のモデルでは依然として困難である。我々は、現在のモデルが標準評価セットで優れたパフォーマンスを達成しているにもかかわらず、実際のアプリケーションで使用する準備ができていないことを示すために、広範な実験を行っている。
論文参考訳（メタデータ） (2020-09-27T01:40:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。