論文の概要: Conformity in Large Language Models
- arxiv url: http://arxiv.org/abs/2410.12428v1
- Date: Wed, 16 Oct 2024 10:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:20.065562
- Title: Conformity in Large Language Models
- Title(参考訳): 大規模言語モデルにおける整合性
- Authors: Xiaochen Zhu, Caiqi Zhang, Tom Stafford, Nigel Collier, Andreas Vlachos,
- Abstract要約: 誤った応答に対する整合性は、言語モデルの有効性を損なう可能性がある。
我々は心理実験に適応し、最先端言語モデルにおける適合度について検討する。
私たちは、LSMが彼ら自身の予測でより不確実である場合に、より適合する可能性が高いことを示す最初の人です。
- 参考スコア(独自算出の注目度): 26.963909402233213
- License:
- Abstract: The conformity effect describes the tendency of individuals to align their responses with the majority. Studying this bias in large language models (LLMs) is crucial, as LLMs are increasingly used in various information-seeking and decision-making tasks as conversation partners to improve productivity. Thus, conformity to incorrect responses can compromise their effectiveness. In this paper, we adapt psychological experiments to examine the extent of conformity in state-of-the-art LLMs. Our findings reveal that all models tested exhibit varying levels of conformity toward the majority, regardless of their initial choice or correctness, across different knowledge domains. Notably, we are the first to show that LLMs are more likely to conform when they are more uncertain in their own prediction. We further explore factors that influence conformity, such as training paradigms and input characteristics, finding that instruction-tuned models are less susceptible to conformity, while increasing the naturalness of majority tones amplifies conformity. Finally, we propose two interventions--Devil's Advocate and Question Distillation--to mitigate conformity, providing insights into building more robust language models.
- Abstract(参考訳): 同調効果は、個人の反応を多数派と一致させる傾向を示す。
大規模言語モデル(LLM)におけるこのバイアスの研究は、LLMが生産性を向上させるために会話パートナーとして様々な情報探索や意思決定タスクにますます利用されているため、非常に重要である。
したがって、誤った応答に対する適合性は、その効果を損なう可能性がある。
本稿では,心理実験を適応させ,現状のLLMの適合度について検討する。
以上の結果から, 実験対象のモデルは, 初期選択や正当性に関わらず, 多数に対する適合度が, 異なる知識領域で異なることが明らかとなった。
特に、LSMが彼ら自身の予測でより不確実である場合に、より適合する可能性が高いことを示すのは、我々が初めてである。
さらに、トレーニングパラダイムや入力特性などの整合性に影響を与える要因について検討し、命令調整されたモデルでは整合性への感受性が低く、多数音の自然性を高めることで整合性が増幅されることを示した。
最後に,Devil's Advocate と Question Distillation の2つの介入を提案し,適合性を緩和し,より堅牢な言語モデルを構築するための洞察を提供する。
関連論文リスト
- Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
本稿では,応答条件付きBradley-Terryモデルを提案する。
また、大規模言語モデルの直接ポリシー最適化(DPO)にRc-BTモデルを利用するRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - Actions Speak Louder than Words: Agent Decisions Reveal Implicit Biases in Language Models [10.565316815513235]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートする際にも暗黙の偏見を示すことがある。
ほぼすべてのシミュレーションにおいて,最先端のLDMは社会デマトグラフィーの相違が顕著であることを示す。
実験結果と実世界の格差を比較すると、我々が発見したバイアスは方向整列されているが、顕著に増幅されていることがわかった。
論文 参考訳(メタデータ) (2025-01-29T05:21:31Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Finetuning Language Models to Emit Linguistic Expressions of Uncertainty [5.591074369497796]
大規模言語モデル(LLM)は情報検索や意思決定のタスクにますます採用されている。
LLMは現実世界の事実と矛盾する情報を生成する傾向があり、その説得的なスタイルはこれらの不正確さを自信と説得力に見せかける。
本研究では,不確実性の言語表現を生成するモデルを開発する手法として,不確実性拡張予測の教師付き微調整について検討する。
論文 参考訳(メタデータ) (2024-09-18T17:52:53Z) - Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - Is Self-knowledge and Action Consistent or Not: Investigating Large Language Model's Personality [11.660251022962141]
大規模言語モデル(LLM)の人格特性の把握における従来のパーソナリティアンケートの有効性について検討する。
本研究の目的は, LLM が持つ性格特性と実世界のシナリオにおけるその傾向の一致を評価することである。
論文 参考訳(メタデータ) (2024-02-22T16:32:08Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本稿では,様々な大きさの報酬モデルに対する実験スケーリング法則の定量的解析を行った。
分析の結果,ヒトの嗜好の多様化による影響は,モデルサイズとデータサイズの両方に依存することが明らかとなった。
十分なキャパシティを持つ大きなモデルでは、さまざまな好みによるネガティブな影響が軽減される一方、より小さなモデルはそれらに対応するのに苦労する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z) - Evaluating the Deductive Competence of Large Language Models [0.2218292673050528]
本稿では,いくつかの大規模言語モデル (LLM) が,古典的な帰納的推論問題を解くことができるかどうかを考察する。
性能は条件によって異なるが、全体的な性能は改善されない。
人的パフォーマンスとは違って,プレゼンテーション形式やコンテンツとのインタラクションが予期せぬ形で行われていることが判明した。
論文 参考訳(メタデータ) (2023-09-11T13:47:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。