論文の概要: Intentional Biases in LLM Responses
- arxiv url: http://arxiv.org/abs/2311.07611v1
- Date: Sat, 11 Nov 2023 19:59:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 16:56:01.727048
- Title: Intentional Biases in LLM Responses
- Title(参考訳): LLM応答における意図的ビアーゼ
- Authors: Nicklaus Badyal, Derek Jacoby, Yvonne Coady
- Abstract要約: Falcon-7bのようなオープンソースモデルとOpen AIのGPT-4モデルの違いについて検討する。
専門家モデルと監督官が混合したGPT-4のガードレールは,様々な視点でペルソナを構築するのに有害であることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this study we intentionally introduce biases into large language model
responses in an attempt to create specific personas for interactive media
purposes. We explore the differences between open source models such as
Falcon-7b and the GPT-4 model from Open AI, and we quantify some differences in
responses afforded by the two systems. We find that the guardrails in the GPT-4
mixture of experts models with a supervisor, while useful in assuring AI
alignment in general, are detrimental in trying to construct personas with a
variety of uncommon viewpoints. This study aims to set the groundwork for
future exploration in intentional biases of large language models such that
these practices can be applied in the creative field, and new forms of media.
- Abstract(参考訳): 本研究では,対話型メディアのための特定のペルソナを作成するために,大規模言語モデル応答にバイアスを意図的に導入する。
Falcon-7bのようなオープンソースモデルとOpen AIのGPT-4モデルの違いについて検討し、2つのシステムで得られる応答の差を定量化する。
専門家モデルと監督官を混合したGPT-4のガードレールは、一般にAIアライメントを確保するのに有用であるが、様々な不一般的な視点でペルソナを構築するのに有害であることがわかった。
本研究の目的は,これらのプラクティスを創造的分野やメディアの新たな形態に適用できるような,大規模言語モデルの意図的バイアスにおける将来の探索の基盤となることにある。
関連論文リスト
- The Pursuit of Fairness in Artificial Intelligence Models: A Survey [2.124791625488617]
この調査は、研究者がAIシステムの公正性を促進する方法の相乗効果を提供する。
AIモデルのバイアスを軽減するために研究者が採用したアプローチとテクニックについて、徹底的な研究がなされている。
また、偏見付きモデルがユーザエクスペリエンスに与える影響や、そのようなモデルの開発とデプロイにおいて考慮すべき倫理的考慮についても調べます。
論文 参考訳(メタデータ) (2024-03-26T02:33:36Z) - MAFIA: Multi-Adapter Fused Inclusive LanguAge Models [13.793816113015513]
プレトレーニング言語モデル(PLM)は、様々なタスクでNLPで広く使われている。
近年の研究では、そのようなモデルが示す様々なバイアスを特定し、これらのバイアスを修正する方法を提案している。
本稿では,様々な社会的バイアスの相乗効果を活用し,同時にマルチバイアス・デバイアスを可能にするデバイアスモデルを提案する。
論文 参考訳(メタデータ) (2024-02-12T09:41:00Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Detecting Natural Language Biases with Prompt-based Learning [0.3749861135832073]
本研究では,(1)性別,(2)人種,(3)性的指向,(4)宗教に基づく4種類の偏見を示すプロンプトを設計する方法について検討する。
これらのプロンプトは、BERT、RoBERTa、T5といった人気モデルやよく認識されているモデルの様々なバリエーションに適用し、それらのバイアスを評価する。
モデル予測にバイアスがあるかどうかを判断するために人的判断を用い、モデルレベルの判断(さらなるプロンプトを通じて)を使用して、モデルが自身の予測のバイアスを自己診断できるかどうかを理解する。
論文 参考訳(メタデータ) (2023-09-11T04:20:36Z) - Soft-prompt Tuning for Large Language Models to Evaluate Bias [0.03141085922386211]
ソフトプロンプトを用いてバイアスを評価することで、人間のバイアス注入を避けるというメリットが得られます。
グループフェアネス(バイアス)を用いて、異なる感度属性のモデルバイアスをチェックし、興味深いバイアスパターンを見つけます。
論文 参考訳(メタデータ) (2023-06-07T19:11:25Z) - Should ChatGPT be Biased? Challenges and Risks of Bias in Large Language
Models [11.323961700172175]
本稿では,ChatGPTのような大規模言語モデルにおけるバイアスに関連する課題とリスクについて考察する。
我々は、トレーニングデータの性質、モデル仕様、アルゴリズム制約、製品設計、ポリシー決定など、バイアスの起源について論じる。
私たちは、言語モデルにおけるバイアスを特定し、定量化し、緩和するための現在のアプローチをレビューし、より公平で透明で責任あるAIシステムを開発するための、多分野の協力的な取り組みの必要性を強調します。
論文 参考訳(メタデータ) (2023-04-07T17:14:00Z) - Foundation Models for Decision Making: Problems, Methods, and
Opportunities [124.79381732197649]
大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。
ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。
基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
論文 参考訳(メタデータ) (2023-03-07T18:44:07Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。