論文の概要: Global-Liar: Factuality of LLMs over Time and Geographic Regions
- arxiv url: http://arxiv.org/abs/2401.17839v1
- Date: Wed, 31 Jan 2024 13:57:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 14:27:58.766984
- Title: Global-Liar: Factuality of LLMs over Time and Geographic Regions
- Title(参考訳): グローバル・リアー:LLMの時間的・地理的特性
- Authors: Shujaat Mirza, Bruno Coelho, Yuyuan Cui, Christina P\"opper, Damon
McCoy
- Abstract要約: 本研究は, GPT-3.5 や GPT-4 を含む広く採用されている GPT モデルにおける実測精度, 安定性, バイアスを評価する。
地理的および時間的表現の観点から一意にバランスのとれたデータセットである「Global-Liar」を導入する。
- 参考スコア(独自算出の注目度): 3.715487408753612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing reliance on AI-driven solutions, particularly Large Language
Models (LLMs) like the GPT series, for information retrieval highlights the
critical need for their factuality and fairness, especially amidst the rampant
spread of misinformation and disinformation online. Our study evaluates the
factual accuracy, stability, and biases in widely adopted GPT models, including
GPT-3.5 and GPT-4, contributing to reliability and integrity of AI-mediated
information dissemination.
We introduce 'Global-Liar,' a dataset uniquely balanced in terms of
geographic and temporal representation, facilitating a more nuanced evaluation
of LLM biases. Our analysis reveals that newer iterations of GPT models do not
always equate to improved performance. Notably, the GPT-4 version from March
demonstrates higher factual accuracy than its subsequent June release.
Furthermore, a concerning bias is observed, privileging statements from the
Global North over the Global South, thus potentially exacerbating existing
informational inequities. Regions such as Africa and the Middle East are at a
disadvantage, with much lower factual accuracy. The performance fluctuations
over time suggest that model updates may not consistently benefit all regions
equally.
Our study also offers insights into the impact of various LLM configuration
settings, such as binary decision forcing, model re-runs and temperature, on
model's factuality. Models constrained to binary (true/false) choices exhibit
reduced factuality compared to those allowing an 'unclear' option. Single
inference at a low temperature setting matches the reliability of majority
voting across various configurations. The insights gained highlight the need
for culturally diverse and geographically inclusive model training and
evaluation. This approach is key to achieving global equity in technology,
distributing AI benefits fairly worldwide.
- Abstract(参考訳): 情報検索におけるAI駆動ソリューション、特にGPTシリーズのような大規模言語モデル(LLM)への依存度の増加は、事実と公平性、特にオンラインでの誤情報や偽情報の拡散の中で重要なニーズを浮き彫りにしている。
本研究は, GPT-3.5 や GPT-4 を含む広く採用されている GPT モデルの事実精度,安定性,バイアスを評価し,AI による情報伝達の信頼性と完全性に寄与する。
地理的および時間的表現の観点から一意にバランスしたデータセット「Global-Liar」を導入し,LLMバイアスのより微妙な評価を容易にする。
解析の結果,GPTモデルの新たなイテレーションが必ずしも性能向上に等しいとは限らないことがわかった。
注目すべきは、3月のgpt-4バージョンは、その後の6月リリースよりも事実の正確性が高いことだ。
さらに、偏りが観察され、グローバル・ノースがグローバル・サウスを越え、既存の情報的不平等を悪化させる可能性がある。
アフリカや中東のような地域は不利であり、事実の正確さははるかに低い。
時間とともにパフォーマンスの変動は、モデル更新がすべてのリージョンに等しく利益をもたらすことはないことを示唆している。
また,二元決定強制,モデル再実行,温度といった様々なllm設定設定がモデルの事実性に与える影響についても考察する。
バイナリ(true/false)の選択に制約されたモデルは、'unclear'オプションを許容するモデルに比べて事実性が低下する。
低温設定での単一推論は、様々な構成で多数決の信頼性に合致する。
得られた洞察は、文化的に多様で地理的に包括的なモデルトレーニングと評価の必要性を浮き彫りにした。
このアプローチは、技術におけるグローバルエクイティを達成するための鍵であり、AIのメリットを世界中に分散する。
関連論文リスト
- Contrasting local and global modeling with machine learning and satellite data: A case study estimating tree canopy height in African savannas [23.868986217962373]
ローカルに収集したデータだけで訓練された小さなモデルは、グローバルTCHマップよりも優れています。
局所モデリングパラダイムとグローバルモデリングパラダイムの対立点と相乗効果の特定を行う。
論文 参考訳(メタデータ) (2024-11-21T17:53:27Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Belief Revision: The Adaptability of Large Language Models Reasoning [63.0281286287648]
本稿では,LMの信念修正能力をテストするための新しいデータセットであるBelief-Rを紹介する。
このタスクは、人間が事前の推論を抑える方法にインスパイアされ、新しく提案されたデルタ推論フレームワーク内のLMを評価する。
様々なプロンプト戦略にまたがる$sim$30 LMを評価した結果,LMは一般的に,新たな情報に反応して信念を適切に修正するのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-06-28T09:09:36Z) - FedDistill: Global Model Distillation for Local Model De-Biasing in Non-IID Federated Learning [10.641875933652647]
フェデレートラーニング(FL)は、協調機械学習を可能にする新しいアプローチである。
FLは、クライアント間で均一に分散されていない(非ID)データのために、課題に直面します。
本稿では,グローバルモデルからローカルモデルへの知識伝達を促進するフレームワークであるFedDistillを紹介する。
論文 参考訳(メタデータ) (2024-04-14T10:23:30Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - Fine-tuning Global Model via Data-Free Knowledge Distillation for
Non-IID Federated Learning [86.59588262014456]
フェデレートラーニング(Federated Learning, FL)は、プライバシ制約下での分散学習パラダイムである。
サーバ内のグローバルモデル(FedFTG)を微調整するデータフリー知識蒸留法を提案する。
私たちのFedFTGは最先端(SOTA)のFLアルゴリズムよりも優れており、FedAvg、FedProx、FedDyn、SCAFFOLDの強化のための強力なプラグインとして機能します。
論文 参考訳(メタデータ) (2022-03-17T11:18:17Z) - Jalisco's multiclass land cover analysis and classification using a
novel lightweight convnet with real-world multispectral and relief data [51.715517570634994]
本稿では、LC分類と解析を行うために、新しい軽量(89kパラメータのみ)畳み込みニューラルネットワーク(ConvNet)を提案する。
本研究では,実世界のオープンデータソースを3つ組み合わせて13のチャネルを得る。
組込み分析は、いくつかのクラスにおいて限られたパフォーマンスを期待し、最も類似したクラスをグループ化する機会を与えてくれます。
論文 参考訳(メタデータ) (2022-01-26T14:58:51Z) - Preservation of the Global Knowledge by Not-True Self Knowledge
Distillation in Federated Learning [8.474470736998136]
フェデレートラーニング(FL)では、強力なグローバルモデルが、クライアントのローカルにトレーニングされたモデルを集約することによって、協調的に学習される。
偏りのある地域分布への適応は、その特徴をグローバルな分布にシフトさせ、グローバルな知識を忘れる結果をもたらすことを観察する。
本稿では, ローカルデータに対するグローバルな知識を活用した, 簡便かつ効果的なフェデレートローカル自己蒸留(FedLSD)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-06T11:51:47Z) - Federated Learning With Quantized Global Model Updates [84.55126371346452]
モバイル端末がローカルデータセットを使用してグローバルモデルをトレーニングできるフェデレーション学習について検討する。
本稿では,大域的モデルと局所的モデル更新の両方を,送信前に量子化する損失FL(LFL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-18T16:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。