論文の概要: LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users
- arxiv url: http://arxiv.org/abs/2406.17737v1
- Date: Tue, 25 Jun 2024 17:24:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 13:31:24.715549
- Title: LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users
- Title(参考訳): LLMをターゲットとしたパフォーマンス不足は、脆弱性のあるユーザに影響を与える
- Authors: Elinor Poole-Dayan, Deb Roy, Jad Kabbara,
- Abstract要約: 本研究では,ユーザ特性に応じて,情報精度,真理性,拒絶といった観点から,大規模言語モデルの応答品質がどう変化するかを検討する。
本研究は, 英語能力の低い者, 教育水準の低い者, アメリカ合衆国国外出身者に対して, 最先端のLLMにおける望ましくない行動が不均等に起こることを示唆する。
- 参考スコア(独自算出の注目度): 17.739596091065856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While state-of-the-art Large Language Models (LLMs) have shown impressive performance on many tasks, there has been extensive research on undesirable model behavior such as hallucinations and bias. In this work, we investigate how the quality of LLM responses changes in terms of information accuracy, truthfulness, and refusals depending on three user traits: English proficiency, education level, and country of origin. We present extensive experimentation on three state-of-the-art LLMs and two different datasets targeting truthfulness and factuality. Our findings suggest that undesirable behaviors in state-of-the-art LLMs occur disproportionately more for users with lower English proficiency, of lower education status, and originating from outside the US, rendering these models unreliable sources of information towards their most vulnerable users.
- Abstract(参考訳): 最先端のLarge Language Models (LLM) は多くのタスクにおいて顕著な性能を示してきたが、幻覚や偏見のような望ましくないモデル行動について広範な研究がなされている。
本研究では,LLM応答の質が,英語の習熟度,教育水準,原産地の3つの特性によって,情報精度,真正性,拒絶の点でどのように変化するかを検討する。
真理と事実をターゲットとした3つの最先端LCMと2つの異なるデータセットについて広範な実験を行った。
現状のLLMにおける望ましくない行動は、英語の習熟度が低く、教育水準が低く、アメリカ国外から派生したユーザーにとって不適切であり、これらのモデルが信頼できない情報ソースを最も脆弱なユーザーに向けてレンダリングすることを示唆している。
関連論文リスト
- Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - Testing and Evaluation of Large Language Models: Correctness, Non-Toxicity, and Fairness [30.632260870411177]
大規模言語モデル(LLM)は、過去数年間、人々の仕事や日常生活に急速に浸透してきた。
この論文は、ソフトウェアテストと自然言語処理の両方の観点から、LSMの正当性、非毒性、公平性に焦点を当てている。
論文 参考訳(メタデータ) (2024-08-31T22:21:04Z) - Examining the Influence of Political Bias on Large Language Model Performance in Stance Classification [5.8229466650067065]
大規模言語モデル(LLM)が、政治的にチャージされたスタンスをより正確に分類する傾向を示すかを検討する。
本研究は,様々な政治的指向性姿勢分類課題において,LSMの性能に統計的に有意な差が認められた。
LLMは、ステートメントが指示されるターゲットにあいまいさがある場合、位置分類の精度が劣る。
論文 参考訳(メタデータ) (2024-07-25T01:11:38Z) - Modulating Language Model Experiences through Frictions [56.17593192325438]
言語モデルの過度な消費は、短期において未確認エラーを伝播し、長期的な批判的思考のために人間の能力を損なうリスクを出力する。
行動科学の介入にインスパイアされた言語モデル体験のための選択的摩擦を提案し,誤用を抑える。
論文 参考訳(メタデータ) (2024-06-24T16:31:11Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Are Large Language Models Good Fact Checkers: A Preliminary Study [26.023148371263012]
大規模言語モデル(LLM)は、その卓越した推論能力と広範な知識リポジトリによって、大きな注目を集めている。
本研究の目的は,特定のファクトチェックサブタスクに対処する上で,様々なLSMを包括的に評価することである。
論文 参考訳(メタデータ) (2023-11-29T05:04:52Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - Language Models Hallucinate, but May Excel at Fact Verification [89.0833981569957]
大規模言語モデル (LLM) はしばしば「ハロシン化 (hallucinate)」し、結果として非実効出力となる。
GPT-3.5でさえ、実際の出力は25%以下である。
これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-23T04:39:01Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Evaluating the Capability of Large-scale Language Models on Chinese
Grammatical Error Correction Task [10.597024796304016]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な能力を示している。
本報告では,中国語の文法的誤り訂正タスクにおける大規模言語モデルの性能について検討する。
論文 参考訳(メタデータ) (2023-07-08T13:10:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。