論文の概要: Exploring Value Biases: How LLMs Deviate Towards the Ideal
- arxiv url: http://arxiv.org/abs/2402.11005v1
- Date: Fri, 16 Feb 2024 18:28:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 00:02:49.645635
- Title: Exploring Value Biases: How LLMs Deviate Towards the Ideal
- Title(参考訳): バリューバイアスを探る - LLMはどのように理想に向かって進化するか
- Authors: Sarath Sivaprasad, Pramod Kaushik, Sahar Abdelnabi, Mario Fritz
- Abstract要約: LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
- 参考スコア(独自算出の注目度): 57.99044181599786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-Language-Models (LLMs) are deployed in a wide range of applications,
and their response has an increasing social impact. Understanding the
non-deliberate(ive) mechanism of LLMs in giving responses is essential in
explaining their performance and discerning their biases in real-world
applications. This is analogous to human studies, where such inadvertent
responses are referred to as sampling. We study this sampling of LLMs in light
of value bias and show that the sampling of LLMs tends to favour high-value
options. Value bias corresponds to this shift of response from the most likely
towards an ideal value represented in the LLM. In fact, this effect can be
reproduced even with new entities learnt via in-context prompting. We show that
this bias manifests in unexpected places and has implications on relevant
application scenarios, like choosing exemplars. The results show that value
bias is strong in LLMs across different categories, similar to the results
found in human studies.
- Abstract(参考訳): 大規模言語モデル(llm)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
LLMの応答の非決定的メカニズムを理解することは、それらの性能を説明し、現実のアプリケーションにおけるバイアスを識別するのに不可欠である。
これは人間の研究と類似しており、そのような不注意な反応をサンプリングと呼ぶ。
本研究では,LLMのサンプリングを値バイアスに照らして検討し,LLMのサンプリングが高値オプションを好む傾向があることを示す。
値バイアスは、LLMで表される理想値への最も可能性が高い応答のこのシフトに対応する。
実際、この効果は、コンテキスト内プロンプトを通じて学習した新しいエンティティでも再現できる。
このバイアスは予期せぬ場所で現れ、例を挙げるなど、関連するアプリケーションシナリオに影響を及ぼすことを示す。
以上の結果から,LLMにおける価値バイアスは,人間の研究結果と同様,異なるカテゴリで強いことが示唆された。
関連論文リスト
- Benchmarking Bias in Large Language Models during Role-Playing [21.28427555283642]
ロールプレイングにおいて,Large Language Models (LLMs) のバイアスを明らかにするために設計されたフェアネステストフレームワークであるBiasLensを紹介した。
提案手法では,11の属性からなる包括的属性からなる550個のソーシャルロールをLCMを用いて生成し,33,000個のロール固有の質問を生成する。
生成された質問をベンチマークとして、OpenAI、Mistral AI、Meta、Alibaba、DeepSeekがリリースした6つの高度なLCMの広範な評価を行う。
我々のベンチマークでは、LLM全体で72,716の偏りが見られ、個々のモデルは7,754から16,963の偏りが生じる。
論文 参考訳(メタデータ) (2024-11-01T13:47:00Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Towards Implicit Bias Detection and Mitigation in Multi-Agent LLM Interactions [25.809599403713506]
大規模言語モデル(LLM)は、社会をシミュレートし、多様な社会的タスクを実行するために、多くの研究で採用されている。
LLMは、人為的なデータに曝されるため、社会的偏見に影響を受けやすい。
本研究では,多エージェントLDM相互作用における性バイアスの存在について検討し,これらのバイアスを軽減するための2つの方法を提案する。
論文 参考訳(メタデータ) (2024-10-03T15:28:05Z) - Social Bias Evaluation for Large Language Models Requires Prompt Variations [38.91306092184724]
大規模言語モデル(LLM)は、かなりの社会的偏見を示す。
本稿では,高速変動変化におけるLDMの感度について検討する。
LLMは、そのプロンプトによって引き起こされる社会的偏見と性能のトレードオフがあることが示される。
論文 参考訳(メタデータ) (2024-07-03T14:12:04Z) - Large Language Models are Biased Reinforcement Learners [0.0]
大規模言語モデル (LLM) は相対値バイアスの行動的シグネチャを示す。
計算的認知モデリングにより、LLMの挙動は単純なRLアルゴリズムによってよく記述されていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-19T01:43:52Z) - Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。