論文の概要: Are Large Language Models Consistent over Value-laden Questions?
- arxiv url: http://arxiv.org/abs/2407.02996v2
- Date: Tue, 01 Oct 2024 21:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:18:24.376873
- Title: Are Large Language Models Consistent over Value-laden Questions?
- Title(参考訳): 大規模言語モデルはバリューラインドな質問に一貫性があるか?
- Authors: Jared Moore, Tanvi Deshpande, Diyi Yang,
- Abstract要約: 大きな言語モデル(LLM)は、調査回答を特定の値にバイアスしているように見える。
価値の一貫性は、パラフレーズ、ユースケース、翻訳、トピック内での回答の類似性として定義します。
従来の作業とは異なり、モデルはパラフレーズ、ユースケース、翻訳、トピック内で比較的一貫性がある。
- 参考スコア(独自算出の注目度): 45.37331974356809
- License:
- Abstract: Large language models (LLMs) appear to bias their survey answers toward certain values. Nonetheless, some argue that LLMs are too inconsistent to simulate particular values. Are they? To answer, we first define value consistency as the similarity of answers across (1) paraphrases of one question, (2) related questions under one topic, (3) multiple-choice and open-ended use-cases of one question, and (4) multilingual translations of a question to English, Chinese, German, and Japanese. We apply these measures to small and large, open LLMs including llama-3, as well as gpt-4o, using 8,000 questions spanning more than 300 topics. Unlike prior work, we find that models are relatively consistent across paraphrases, use-cases, translations, and within a topic. Still, some inconsistencies remain. Models are more consistent on uncontroversial topics (e.g., in the U.S., "Thanksgiving") than on controversial ones ("euthanasia"). Base models are both more consistent compared to fine-tuned models and are uniform in their consistency across topics, while fine-tuned models are more inconsistent about some topics ("euthanasia") than others ("women's rights") like our human subjects (n=165).
- Abstract(参考訳): 大きな言語モデル(LLM)は、調査回答を特定の値にバイアスしているように見える。
それでも、LSMは特定の値をシミュレートするには矛盾しすぎていると主張する者もいる。
そうなの?
まず,(1)1つの質問のパラフレーズ,(2)1つの質問の関連質問,(3)1つの質問の複数選択とオープンな使用事例,(4)英語,中国語,ドイツ語,日本語への質問の多言語翻訳について,回答の類似性として値整合性を定義した。
我々は,300以上のトピックにまたがる8,000の質問を用いて,ラマ3,gpt-4oを含む小規模かつ大規模でオープンなLLMに適用した。
従来の作業とは異なり、モデルはパラフレーズ、ユースケース、翻訳、トピック内で比較的一貫性がある。
しかし、いくつかの矛盾は残る。
モデルは議論の余地のない話題(例えば、アメリカ合衆国では「感謝祭」)において、議論を呼ぶもの(「ユータナシア」)よりも一貫性がある。
ベースモデルは、微調整されたモデルよりも一貫性があり、トピック間の一貫性が均一であるのに対して、微調整されたモデルは、人間の主題(n=165)のような他のトピック(女性の権利)よりも、いくつかのトピック(「ユータナシア」)に一貫性がない。
関連論文リスト
- One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [55.35278531907263]
本稿では,大言語モデルの公平性と頑健性に関する最初の研究を標準的推論タスクにおける方言に提示する。
我々は、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えるために、AAVEスピーカーを採用。
標準英語と比較して、これらの広く使われているモデルのほとんどは、AAVEのクエリに対して重大な脆さと不公平さを示している。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones? [65.43882564649721]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも矛盾する問題に悩まされている。
我々はConsisEvalベンチマークを開発し、各エントリは厳密な難易度で2つの質問から構成される。
相対的整合性スコアによる整合性向上の可能性を分析する。
論文 参考訳(メタデータ) (2024-06-18T17:25:47Z) - Do Large Language Models Understand Conversational Implicature -- A case study with a chinese sitcom [4.142301960178498]
SwordsmanImpは、会話の不適応を目的とした中国初のマルチターン対話ベースのデータセットである。
200の注意深い手作りの質問が含まれており、すべての注釈がグリサンの最大値が違反している。
以上の結果から, GPT-4は, 複数質問に対する人間レベルの精度(94%)を達成できることがわかった。
GPT-3.5やいくつかのオープンソースモデルを含む他のモデルは、複数の質問に対して20%から60%の低い精度を示している。
論文 参考訳(メタデータ) (2024-04-30T12:43:53Z) - Evaluating the Elementary Multilingual Capabilities of Large Language Models with MultiQ [16.637598165238934]
大規模言語モデル(LLM)は、世界中の英語話者の大多数を含むすべての人にサービスを提供する必要がある。
近年の研究では、意図した用途に制限があるにもかかわらず、多くの言語でLSMを促すことが示されている。
我々は、27.4kのテスト質問に答える基本的なオープンエンド質問のための新しい銀標準ベンチマークであるMultiQを紹介する。
論文 参考訳(メタデータ) (2024-03-06T16:01:44Z) - SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning [44.53966523376327]
SeaEvalは多言語基盤モデルのベンチマークである。
これらのモデルがどのように理解し、自然言語で推論するかを特徴付ける。
また、文化の実践やニュアンス、価値観をいかに理解したかについても検討する。
論文 参考訳(メタデータ) (2023-09-09T11:42:22Z) - Negated Complementary Commonsense using Large Language Models [3.42658286826597]
この研究は、コモンセンスのシナリオで否定された補完的な質問に対する答えを見つけることに重点を置いている。
本稿では,否定的な相補的シナリオにおける性能向上のためのモデルに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T15:03:48Z) - Speaking Multiple Languages Affects the Moral Bias of Language Models [70.94372902010232]
事前訓練された多言語言語モデル(PMLM)は、複数の言語からのデータや言語間転送を扱う際に一般的に用いられる。
モデルは英語から道徳的規範を捉え、他の言語に強制するか?
我々の実験は、事実、PMLMが道徳的バイアスを符号化していることを示しているが、これらは必ずしも人間の意見の文化的相違や共通点に対応しているわけではない。
論文 参考訳(メタデータ) (2022-11-14T20:08:54Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。