論文の概要: Supporting Anticipatory Governance using LLMs: Evaluating and Aligning
Large Language Models with the News Media to Anticipate the Negative Impacts
of AI
- arxiv url: http://arxiv.org/abs/2401.18028v1
- Date: Wed, 31 Jan 2024 17:43:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 13:40:01.359478
- Title: Supporting Anticipatory Governance using LLMs: Evaluating and Aligning
Large Language Models with the News Media to Anticipate the Negative Impacts
of AI
- Title(参考訳): LLMによる予測ガバナンス支援:AIの負の影響を予測するためのニュースメディアによる大規模言語モデルの評価と調整
- Authors: Mowafak Allaham, Nicholas Diakopoulos
- Abstract要約: 我々は、世界中の何百ものオンラインニュースドメインが発行するニュース記事に基づいて、AIによる影響の分類を開発する。
このベースラインからのサンプルを用いて,命令ベースおよび微調整完了モデル (Mistral-7B, GPT-3) の評価を行った。
メディアからの影響を微調整したMistral-7Bによる影響は,GPT-4のような大規模モデルによる影響と同等に定性的に比較される傾向にある。
- 参考スコア(独自算出の注目度): 4.324021238526106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Anticipating the negative impacts of emerging AI technologies is a challenge,
especially in the early stages of development. An understudied approach to such
anticipation is the use of LLMs to enhance and guide this process. Despite
advancements in LLMs and evaluation metrics to account for biases in generated
text, it is unclear how well these models perform in anticipatory tasks.
Specifically, the use of LLMs to anticipate AI impacts raises questions about
the quality and range of categories of negative impacts these models are
capable of generating. In this paper we leverage news media, a diverse data
source that is rich with normative assessments of emerging technologies, to
formulate a taxonomy of impacts to act as a baseline for comparing against. By
computationally analyzing thousands of news articles published by hundreds of
online news domains around the world, we develop a taxonomy consisting of ten
categories of AI impacts. We then evaluate both instruction-based (GPT-4 and
Mistral-7B-Instruct) and fine-tuned completion models (Mistral-7B and GPT-3)
using a sample from this baseline. We find that the generated impacts using
Mistral-7B, fine-tuned on impacts from the news media, tend to be qualitatively
on par with impacts generated using a larger scale model such as GPT-4.
Moreover, we find that these LLMs generate impacts that largely reflect the
taxonomy of negative impacts identified in the news media, however the impacts
produced by instruction-based models had gaps in the production of certain
categories of impacts in comparison to fine-tuned models. This research
highlights a potential bias in state-of-the-art LLMs when used for anticipating
impacts and demonstrates the advantages of aligning smaller LLMs with a diverse
range of impacts, such as those reflected in the news media, to better reflect
such impacts during anticipatory exercises.
- Abstract(参考訳): 新興AI技術の負の影響を期待することは、特に開発の初期段階において課題である。
このような予測に対する未研究のアプローチは、このプロセスの強化とガイドにLLMを使うことである。
生成したテキストのバイアスを考慮に入れたLCMや評価指標の進歩にもかかわらず、これらのモデルが予測タスクでどの程度うまく機能するかは明らかでない。
具体的には、LLMを使用してAIへの影響を予測することで、これらのモデルが生成できる負の影響のカテゴリの品質と範囲に関する疑問が提起される。
本稿では,新興技術の規範的評価に富む多種多様なデータソースであるnews mediaを活用して,影響の分類法を比較基準として定式化する。
世界中の何百ものオンラインニュースドメインが発行する何千ものニュース記事の計算分析によって、AIの影響の10のカテゴリからなる分類法を開発する。
次に,このベースラインからのサンプルを用いて,命令ベース (GPT-4, Mistral-7B-Instruct) と微調整完了モデル (Mistral-7B, GPT-3) の両方を評価する。
メディアからの影響を微調整したMistral-7Bによる影響は,GPT-4のような大規模モデルによる影響と同等に定性的に比較される傾向にある。
さらに、これらのLCMは、ニュースメディアで特定されるネガティブな影響の分類を反映する影響を生じさせるが、教示ベースモデルが生み出す影響は、微調整モデルと比較して特定のカテゴリーのインパクトの生成にギャップがある。
本研究は, 衝撃を予測するために使用するLLMの潜在的なバイアスを強調し, 予測運動中の影響をよりよく反映するために, メディアに反映されるような様々な影響に, より小さなLLMを整合させることの利点を示す。
関連論文リスト
- Investigating Automatic Scoring and Feedback using Large Language Models [46.1232919707345]
本稿では,PEFTに基づく量子化モデルの有効性について検討する。
その結果, 微調整LDMによる評価は精度が高く, 平均的に3%未満の誤差が得られた。
論文 参考訳(メタデータ) (2024-05-01T16:13:54Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [62.954890888281206]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models [18.624280305864804]
大規模言語モデル(LLM)は自然言語処理(NLP)分野の基盤となっている。
本稿では,LSMを標的とした様々な攻撃形態の包括的調査を行う。
モデルアウトプットを操作するための敵攻撃、モデルトレーニングに影響を与えるデータ中毒、データエクスプロイトのトレーニングに関連するプライバシー上の懸念などについて調べる。
論文 参考訳(メタデータ) (2024-03-03T04:46:21Z) - CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - Feedback Loops With Language Models Drive In-Context Reward Hacking [84.73663477579804]
フィードバックループがコンテキスト内報酬ハッキング(ICRH)を引き起こす可能性があることを示す。
ICRHに繋がる2つのプロセス、すなわちアウトプット・リファインメントとポリシー・リファインメントを同定し研究する。
AI開発が加速するにつれて、フィードバックループの効果が増大する。
論文 参考訳(メタデータ) (2024-02-09T18:59:29Z) - CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable
Evaluation of Large Language Model Generation [89.79296467204733]
我々は、CrytiqueLLMと呼ばれる新しい批評生成モデルを提案する。
実験結果から,GPT-4に匹敵する評価性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Oversampling Higher-Performing Minorities During Machine Learning Model
Training Reduces Adverse Impact Slightly but Also Reduces Model Accuracy [18.849426971487077]
トレーニングデータにおける有害影響率を操作するために,少数者(黒人およびヒスパニック系)を体系的に過小評価し,過大評価した。
その結果,トレーニングデータによる影響は,MLモデルの悪影響と線形に関連していることがわかった。
本研究は, 自己申告書と面接書にまたがる一貫した効果を観察し, 実測, 合成観察をオーバーサンプリングした。
論文 参考訳(メタデータ) (2023-04-27T02:53:29Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。