論文の概要: What does AI consider praiseworthy?
- arxiv url: http://arxiv.org/abs/2412.09630v2
- Date: Mon, 24 Feb 2025 16:35:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:48:37.282781
- Title: What does AI consider praiseworthy?
- Title(参考訳): AIは賞賛に値するものは何だろうか?
- Authors: Andrew J. Peterson,
- Abstract要約: 大規模言語モデルの暗黙的・明示的な道徳観を考察する。
信頼感はイデオロギーよりも賞賛と批判の強い原動力であることが分かっています。
我々は、AIシステムが社会に統合されるにつれて、その賞賛、批判、中立性のパターンを注意深く監視する必要があると結論付けている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: As large language models (LLMs) are increasingly used for work, personal, and therapeutic purposes, researchers have begun to investigate these models' implicit and explicit moral views. Previous work, however, focuses on asking LLMs to state opinions, or on other technical evaluations that do not reflect common user interactions. We propose a novel evaluation of LLM behavior that analyzes responses to user-stated intentions, such as "I'm thinking of campaigning for {candidate}." LLMs frequently respond with critiques or praise, often beginning responses with phrases such as "That's great to hear!..." While this makes them friendly, these praise responses are not universal and thus reflect a normative stance by the LLM. We map out the moral landscape of LLMs in how they respond to user statements in different domains including politics and everyday ethical actions. In particular, although a na\"ive analysis might suggest LLMs are biased against right-leaning politics, our findings on news sources indicate that trustworthiness is a stronger driver of praise and critique than ideology. Second, we find strong alignment across models in response to ethically-relevant action statements, but that doing so requires them to engage in high levels of praise and critique of users, suggesting a reticence-alignment tradeoff. Finally, our experiment on statements about world leaders finds no evidence of bias favoring the country of origin of the models. We conclude that as AI systems become more integrated into society, their patterns of praise, critique, and neutrality must be carefully monitored to prevent unintended psychological and societal consequences.
- Abstract(参考訳): 大規模言語モデル(LLM)は仕事、個人的な目的、治療目的のためにますます使われてきているため、研究者はこれらのモデルの暗黙的かつ明示的な道徳的見解を調査し始めている。
しかし、これまでの研究は、LCMに意見を伝えることや、一般的なユーザインタラクションを反映しない他の技術的評価に重点を置いている。
本稿では,「Candidate} のキャンペーンを考えている」などのユーザ定型意図に対する反応を解析する LLM 行動の新たな評価法を提案する。
LLMは、しばしば批判や賞賛に反応し、しばしば"That's great to hear!
これは彼らにとって友好的であるが、これらの賞賛の反応は普遍的ではなく、LLMの規範的な姿勢を反映している。
政治や日々の倫理的行動など、さまざまな分野のユーザー・ステートメントにどう反応するかについて、LLMの道徳観を概観する。
特に、ナシブ分析は、LLMが右派政治に偏っていることを示唆するかもしれないが、我々のニュースソースの調査結果は、信頼性はイデオロギーよりも賞賛と批判の強い要因であることを示している。
第二に、倫理的に関係のある行動ステートメントに対するモデル間の強い整合性を見出すが、それを行うためには、高いレベルのユーザの賞賛と批判を行なわなくてはならず、相対性アライメントのトレードオフが示唆される。
最後に、世界のリーダーに関する声明に関する実験では、モデルの起源の国に偏見があるという証拠は見つからない。
我々は、AIシステムが社会に統合されるにつれて、その賞賛、批判、中立といったパターンは、意図しない心理的・社会的結果を防ぐために注意深く監視されなければならないと結論付けている。
関連論文リスト
- IssueBench: Millions of Realistic Prompts for Measuring Issue Bias in LLM Writing Assistance [30.25793801015166]
IssueBenchは、大きな言語モデルにおける問題バイアスを測定するための2.49mの現実的なプロンプトのセットである。
現状のLLMでは問題バイアスが一般的で永続的であることを示す。
あらゆるモデルは、一部の問題に関して共和党の有権者の意見よりも、民主党の意見と一致している。
論文 参考訳(メタデータ) (2025-02-12T13:37:03Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Bias in the Mirror: Are LLMs opinions robust to their own adversarial attacks ? [22.0383367888756]
大規模言語モデル(LLM)は、トレーニングデータとアライメントプロセスからバイアスを受け継ぎ、微妙な方法で応答に影響を与える。
LLMの2つのインスタンスが自己議論を行う新しいアプローチを導入し、反対の視点でモデルの中立バージョンを説得する。
我々は、モデルがどのようにしっかりとバイアスを保ち、誤った情報を強化するか、有害な視点に移行するかを評価する。
論文 参考訳(メタデータ) (2024-10-17T13:06:02Z) - Whose Side Are You On? Investigating the Political Stance of Large Language Models [56.883423489203786]
大規模言語モデル(LLM)の政治的指向性について,8つのトピックのスペクトルにわたって検討する。
我々の調査は、中絶からLGBTQ問題まで8つのトピックにまたがるLLMの政治的整合性について考察している。
この結果から,ユーザはクエリ作成時に留意すべきであり,中立的なプロンプト言語を選択する際には注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-15T04:02:24Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Aligning Language Models to User Opinions [10.953326025836475]
ユーザの意見や人口統計やイデオロギーが相互予測者ではないことが判明した。
ユーザの意見とユーザ人口、イデオロギーの両方をモデル化することで、LCMを整合させる。
人口統計学とイデオロギーを併用したLCMの典型的なアプローチに加えて,個人ユーザからの最も関連性の高い過去の意見を活用すれば,より正確なユーザ意見の予測が可能になることが判明した。
論文 参考訳(メタデータ) (2023-05-24T09:11:11Z) - Whose Opinions Do Language Models Reflect? [88.35520051971538]
質の高い世論調査と関連する人的反応を利用して,言語モデル(LM)に反映された意見を検討する。
我々は、現在のLMが反映している見解と、アメリカの人口集団の見解の間にかなりの不一致を見出した。
我々の分析は、人間のフィードバック調整されたLMの左利き傾向に関する事前の観察を裏付けるものである。
論文 参考訳(メタデータ) (2023-03-30T17:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。