論文の概要: Revealing Fine-Grained Values and Opinions in Large Language Models
- arxiv url: http://arxiv.org/abs/2406.19238v2
- Date: Thu, 31 Oct 2024 16:06:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 23:41:28.651000
- Title: Revealing Fine-Grained Values and Opinions in Large Language Models
- Title(参考訳): 大規模言語モデルにおける細粒度値とオピニオンの探索
- Authors: Dustin Wright, Arnav Arora, Nadav Borenstein, Srishti Yadav, Serge Belongie, Isabelle Augenstein,
- Abstract要約: 政治コンパステスト(PCT)の62の命題に対する156kの応答のデータセットを,420の即時変動を用いて解析した。
微粒化解析のために, 応答のトポロジを同定することを提案する: 意味論的に類似したフレーズは, 異なるプロンプト間で繰り返し, 一貫性がある。
その結果,PCTの結果に有意な影響を与え,バイアスを反映し,クローズドフォームとオープンドメインの応答を誘発する際のテスト結果の相違が示唆された。
- 参考スコア(独自算出の注目度): 42.48316407080442
- License:
- Abstract: Uncovering latent values and opinions embedded in large language models (LLMs) can help identify biases and mitigate potential harm. Recently, this has been approached by prompting LLMs with survey questions and quantifying the stances in the outputs towards morally and politically charged statements. However, the stances generated by LLMs can vary greatly depending on how they are prompted, and there are many ways to argue for or against a given position. In this work, we propose to address this by analysing a large and robust dataset of 156k LLM responses to the 62 propositions of the Political Compass Test (PCT) generated by 6 LLMs using 420 prompt variations. We perform coarse-grained analysis of their generated stances and fine-grained analysis of the plain text justifications for those stances. For fine-grained analysis, we propose to identify tropes in the responses: semantically similar phrases that are recurrent and consistent across different prompts, revealing natural patterns in the text that a given LLM is prone to produce. We find that demographic features added to prompts significantly affect outcomes on the PCT, reflecting bias, as well as disparities between the results of tests when eliciting closed-form vs. open domain responses. Additionally, patterns in the plain text rationales via tropes show that similar justifications are repeatedly generated across models and prompts even with disparate stances.
- Abstract(参考訳): 大きな言語モデル(LLM)に埋め込まれた潜在値と意見を明らかにすることは、バイアスを特定し、潜在的な害を軽減するのに役立つ。
近年、LCMに調査質問をさせ、道徳的、政治的に告発された声明に対するアウトプットのスタンスを定量化することで、この問題に対処している。
しかし、LSMが生み出す姿勢は、どのように引き起こされるかによって大きく異なり、与えられた立場に対して論じる、あるいは反対する多くの方法がある。
本研究では,政治コンパステスト (PCT) の62の命題に対して,420の即時変動を用いた大規模かつ堅牢な156k LLM応答のデータセットを解析することにより,この問題に対処することを提案する。
得られた姿勢の粗くきめ細かな分析と、それらの姿勢に対する平文正当性のきめ細かな分析を行う。
より詳細な分析を行うため,提案手法では,異なるプロンプトにまたがって連続的かつ一貫した意味論的に類似したフレーズを抽出し,所与のLLMが生成し易いテキスト中の自然なパターンを明らかにする。
その結果,PCTの結果に有意な影響を与え,バイアスを反映し,クローズドフォームとオープンドメインの応答を誘発する際のテスト結果の相違が示唆された。
さらに、トロープによる平文の有理律のパターンは、類似の正当化がモデル間で繰り返し発生し、異なるスタンスであってもプロンプトが生じることを示している。
関連論文リスト
- Large Language Models Still Exhibit Bias in Long Text [14.338308312117901]
大規模言語モデルにおけるバイアスを評価するフレームワークであるLong Text Fairness Test (LTF-TEST)を紹介する。
LTF-TESTはモデル応答とそれらの背後にある推論の両方を評価することで、単純な応答では検出が難しい微妙なバイアスを明らかにする。
FT-REGARD(FT-REGARD)を提案する。
論文 参考訳(メタデータ) (2024-10-23T02:51:33Z) - Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文 参考訳(メタデータ) (2024-08-09T14:34:32Z) - From Distributional to Overton Pluralism: Investigating Large Language Model Alignment [82.99849359892112]
適応後の応答多様性の低下を以前報告した再検査を行った。
分析の結果,応答の多様性の明らかな低下は,品質管理と情報集約によって大きく説明できることがわかった。
発見は、現在のアライメント技術はキャプチャーされるが、アシスタントライクなベースLLM動作の有用なサブセットを拡張するものではないことを示している。
論文 参考訳(メタデータ) (2024-06-25T16:32:33Z) - Do Large Language Models Exhibit Cognitive Dissonance? Studying the Difference Between Revealed Beliefs and Stated Answers [13.644277507363036]
我々は,これらの能力が調整プロンプトとMCQの外部で測定可能かどうかを検討する。
以上の結果から, LLMの回答は, Stated Answer と大きく異なることが示唆された。
テキスト補完はLLMの中核にあるため,これらの結果は共通評価手法が部分画像のみを提供する可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-06-21T08:56:35Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - "I'd Like to Have an Argument, Please": Argumentative Reasoning in Large Language Models [0.0]
議論的推論を行う2つの大規模言語モデル(LLM)の性能を評価する。
AM と APE では LLM のスコアが SOTA に匹敵するか上回っていることがわかった。
しかしながら、LLMの統計的解析は、小さいが、まだ可読である場合、I/O表現の変化は、モデルが推論を実行していないことを示している。
論文 参考訳(メタデータ) (2023-09-29T02:41:38Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。