論文の概要: Measuring Social Norms of Large Language Models
- arxiv url: http://arxiv.org/abs/2404.02491v4
- Date: Wed, 22 May 2024 05:23:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 05:50:08.840682
- Title: Measuring Social Norms of Large Language Models
- Title(参考訳): 大規模言語モデルの社会的ノルムの測定
- Authors: Ye Yuan, Kexin Tang, Jianhao Shen, Ming Zhang, Chenguang Wang,
- Abstract要約: 本稿では,大規模言語モデルが社会規範を理解するかどうかを検証するための新たな課題を提案する。
我々のデータセットは、402のスキルと12,383の質問からなる、最大の社会的規範スキルのセットを特徴としている。
本研究では,大規模言語モデルに基づくマルチエージェント・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.648679166997693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new challenge to examine whether large language models understand social norms. In contrast to existing datasets, our dataset requires a fundamental understanding of social norms to solve. Our dataset features the largest set of social norm skills, consisting of 402 skills and 12,383 questions covering a wide set of social norms ranging from opinions and arguments to culture and laws. We design our dataset according to the K-12 curriculum. This enables the direct comparison of the social understanding of large language models to humans, more specifically, elementary students. While prior work generates nearly random accuracy on our benchmark, recent large language models such as GPT3.5-Turbo and LLaMA2-Chat are able to improve the performance significantly, only slightly below human performance. We then propose a multi-agent framework based on large language models to improve the models' ability to understand social norms. This method further improves large language models to be on par with humans. Given the increasing adoption of large language models in real-world applications, our finding is particularly important and presents a unique direction for future improvements.
- Abstract(参考訳): 本稿では,大規模言語モデルが社会規範を理解するかどうかを検証するための新たな課題を提案する。
既存のデータセットとは対照的に、私たちのデータセットは解決すべき社会的規範を根本的に理解する必要があります。
我々のデータセットは、402のスキルと12,383の質問からなり、意見や議論から文化や法律まで幅広い社会的規範をカバーしている。
K-12のカリキュラムに従ってデータセットを設計する。
これにより、大きな言語モデルの社会的理解を直接人間、具体的には小学生と直接比較することができる。
GPT3.5-Turbo や LLaMA2-Chat といった最近の大規模言語モデルでは,従来のベンチマークではほとんどランダムな精度が得られなかった。
次に,大規模言語モデルに基づくマルチエージェントフレームワークを提案する。
この方法は、人間に匹敵する大きな言語モデルをさらに改善する。
現実世界のアプリケーションにおける大規模言語モデルの採用が増加していることを考えると、我々の発見は特に重要であり、将来の改善に向けたユニークな方向性を示している。
関連論文リスト
- The Sociolinguistic Foundations of Language Modeling [34.02231580843069]
我々は、大きな言語モデルは本質的に言語の多様性のモデルであると主張する。
この視点が言語モデリングにおける5つの基本的な課題にどのように対処できるかについて議論する。
論文 参考訳(メタデータ) (2024-07-12T13:12:55Z) - Generative Language Models Exhibit Social Identity Biases [17.307292780517653]
56大言語モデルにおいて,内集団の連帯性と外集団の敵意,基本的社会的アイデンティティバイアスが存在するか否かを検討する。
ほぼすべての基礎言語モデルといくつかの命令微調整モデルは、文の完全化を促すと、明らかな非群陽性および非群陰性な関連を示す。
現代の言語モデルは,人間と同等の社会的アイデンティティバイアスを示すことが示唆された。
論文 参考訳(メタデータ) (2023-10-24T13:17:40Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - When Large Language Models Meet Personalization: Perspectives of
Challenges and Opportunities [60.5609416496429]
大規模言語モデルの能力は劇的に改善されている。
このような大きな飛躍的なAI能力は、パーソナライゼーションの実施方法のパターンを変えるだろう。
大規模言語モデルを汎用インターフェースとして活用することにより、パーソナライズシステムはユーザ要求を計画にコンパイルすることができる。
論文 参考訳(メタデータ) (2023-07-31T02:48:56Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - TwHIN-BERT: A Socially-Enriched Pre-trained Language Model for
Multilingual Tweet Representations at Twitter [31.698196219228024]
TwHIN-BERTはTwitterで制作された多言語言語モデルである。
私たちのモデルは、100以上の異なる言語をカバーする70億のツイートで訓練されています。
我々は,多言語ソーシャルレコメンデーションと意味理解タスクにおけるモデルの評価を行った。
論文 参考訳(メタデータ) (2022-09-15T19:01:21Z) - Beyond the Imitation Game: Quantifying and extrapolating the
capabilities of language models [648.3665819567409]
言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。
ビッグベンチは204のタスクで構成され、132の機関で450人の著者が貢献している。
我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
論文 参考訳(メタデータ) (2022-06-09T17:05:34Z) - Go Beyond Plain Fine-tuning: Improving Pretrained Models for Social
Commonsense [6.335245542129822]
社会的・感情的なコモンセンス推論を必要とする課題であるSocial IQAデータセットに注目した。
我々は,外部のcommonsenseコーパスを活用するとともに,いくつかのアーキテクチャのバリエーションと拡張を提案する。
提案システムは,リーダーボード上の上位モデルとして,競争力のある結果を得る。
論文 参考訳(メタデータ) (2021-05-12T19:18:02Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。