論文の概要: Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent
Cognitive Bias
- arxiv url: http://arxiv.org/abs/2308.00225v1
- Date: Tue, 1 Aug 2023 01:39:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 15:53:18.624716
- Title: Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent
Cognitive Bias
- Title(参考訳): バイアスに指示:認知バイアスを排除した指導型言語モデル
- Authors: Itay Itzhak, Gabriel Stanovsky, Nir Rosenfeld, Yonatan Belinkov
- Abstract要約: 近年の研究では、人間のフィードバックによる指導のチューニングと学習によって、大規模言語モデルの能力が劇的に向上していることが示されている。
これらのチューニング手法は、モデルに高品質なテキストを生成することができるが、より暗黙的な認知バイアスがこれらの微調整モデルに生じる可能性があると推測する。
我々の研究は、これらの微調整されたモデルが、事前訓練された前任者で欠如していたか、あるいはそれ以下であったバイアスを示す証拠を提供する。
- 参考スコア(独自算出の注目度): 39.608612785296145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies show that instruction tuning and learning from human feedback
improve the abilities of large language models (LMs) dramatically. While these
tuning methods can make models generate high-quality text, we conjecture that
more implicit cognitive biases may arise in these fine-tuned models. Our work
provides evidence that these fine-tuned models exhibit biases that were absent
or less pronounced in their pretrained predecessors. We examine the extent of
this phenomenon in three cognitive biases - the decoy effect, the certainty
effect, and the belief bias - all of which are known to influence human
decision-making and reasoning. Our findings highlight the presence of these
biases in various models, especially those that have undergone instruction
tuning, such as Flan-T5, GPT3.5, and GPT4. This research constitutes a step
toward comprehending cognitive biases in instruction-tuned LMs, which is
crucial for the development of more reliable and unbiased language models.
- Abstract(参考訳): 近年の研究では、人間のフィードバックから命令のチューニングと学習が、大言語モデル(lms)の能力を大幅に向上させることが示された。
これらのチューニング手法は、モデルに高品質なテキストを生成することができるが、より暗黙的な認知バイアスがこれらの微調整モデルに生じる可能性があると推測する。
我々の研究は、これらの微調整されたモデルは、事前訓練された前任者では、欠落または欠落しているバイアスを示す証拠を提供する。
この現象の程度を3つの認知バイアス(デコイ効果、確実性効果、信念バイアス)で検討し、いずれも人間の意思決定や推論に影響を与えることが知られている。
本研究は,Flan-T5,GPT3.5,GPT4などの指導訓練を受けたモデルにおいて,これらのバイアスの存在を強調した。
本研究は、より信頼性が高くバイアスのない言語モデルの開発に不可欠である、命令調整型LMにおける認知バイアスの理解に向けたステップを構成する。
関連論文リスト
- Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。
本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。
以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-01T07:29:03Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Exploring the Potential of the Large Language Models (LLMs) in Identifying Misleading News Headlines [2.0330684186105805]
本研究では、誤解を招くニュースの見出しと誤解を招くニュースの見出しを識別する上で、LLM(Large Language Models)の有効性について検討する。
解析の結果,ChatGPT-4の精度は良好であった。
論文 参考訳(メタデータ) (2024-05-06T04:06:45Z) - More RLHF, More Trust? On The Impact of Human Preference Alignment On Language Model Trustworthiness [24.843692458375436]
本研究は,5つの信頼性分野において,汎用的嗜好データに整合したモデルが,有益性と無害性に与える影響について検討した。
RLHFによる信頼性の向上は保証されるには程遠いものであり、嗜好データ、アライメントアルゴリズム、および特定の信頼性の側面の間には複雑な相互作用が存在する。
論文 参考訳(メタデータ) (2024-04-29T17:00:53Z) - Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。
本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。
ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文 参考訳(メタデータ) (2024-03-05T09:09:15Z) - Language Models Hallucinate, but May Excel at Fact Verification [89.0833981569957]
大規模言語モデル (LLM) はしばしば「ハロシン化 (hallucinate)」し、結果として非実効出力となる。
GPT-3.5でさえ、実際の出力は25%以下である。
これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-23T04:39:01Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language
Models -- and Disappeared in GPT-4 [0.0]
大型言語モデル (LLM) は人間の直感に類似した行動を示す。
また、直感的な意思決定の傾向がいかに頑丈かも調べる。
論文 参考訳(メタデータ) (2023-06-13T08:43:13Z) - Evaluating Psychological Safety of Large Language Models [72.88260608425949]
我々は,大規模言語モデル(LLM)の心理的安全性を評価するために,バイアスのないプロンプトを設計した。
短い暗黒トライアド(SD-3)とビッグファイブインベントリ(BFI)の2つのパーソナリティテストを用いて5種類のLDMを試験した。
毒性を減らすための安全基準を微調整したものの、InstructGPT, GPT-3.5, GPT-4は依然として暗い性格パターンを示した。
直接選好最適化を用いたBFIからの反応を微調整したLlama-2-chat-7Bは、モデルの心理的毒性を効果的に低減する。
論文 参考訳(メタデータ) (2022-12-20T18:45:07Z) - An Empirical Survey of the Effectiveness of Debiasing Techniques for
Pre-Trained Language Models [4.937002982255573]
最近の研究によると、事前学習された言語モデルは、訓練されたテキストコーパスから社会的偏見を捉えている。
最近提案された5つのデバイアス技術: 対実データ拡張、ドロップアウト、イテレーティブヌルスペース投影、セルフデバイアス、センテンスデバイアス。
3つの異なるバイアスベンチマークを用いて各手法の有効性を定量化するとともに,これらの手法がモデル言語モデリング能力に与える影響を計測する。
論文 参考訳(メタデータ) (2021-10-16T09:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。