論文の概要: Fairness is Not Silence: Unmasking Vacuous Neutrality in Small Language Models
- arxiv url: http://arxiv.org/abs/2506.08487v1
- Date: Tue, 10 Jun 2025 06:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.667286
- Title: Fairness is Not Silence: Unmasking Vacuous Neutrality in Small Language Models
- Title(参考訳): 公平さは沈黙ではない:小言語モデルにおける無意味な中立性
- Authors: Sumanth Manduru, Carlotta Domeniconi,
- Abstract要約: オンデバイスおよびリソース制約のあるデプロイメントのためのSLM(Small Language Models)は、倫理的リスクに対する私たちの理解を大きく上回っています。
0.5から50億のパラメータにまたがる命令調整SLMの大規模監査を行った。
ゼロショットプロンプト下でのBBQベンチマークを用いて、あいまいで曖昧な文脈における実用性と公平性の両方を分析する。
- 参考スコア(独自算出の注目度): 10.20777791785117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid adoption of Small Language Models (SLMs) for on-device and resource-constrained deployments has outpaced our understanding of their ethical risks. To the best of our knowledge, we present the first large-scale audit of instruction-tuned SLMs spanning 0.5 to 5 billion parameters-an overlooked "middle tier" between BERT-class encoders and flagship LLMs. Our evaluation includes nine open-source models from the Qwen 2.5, LLaMA 3.2, Gemma 3, and Phi families. Using the BBQ benchmark under zero-shot prompting, we analyze both utility and fairness across ambiguous and disambiguated contexts. This evaluation reveals three key insights. First, competence and fairness need not be antagonistic: Phi models achieve F1 scores exceeding 90 percent while exhibiting minimal bias, showing that efficient and ethical NLP is attainable. Second, social bias varies significantly by architecture: Qwen 2.5 models may appear fair, but this often reflects vacuous neutrality, random guessing, or evasive behavior rather than genuine ethical alignment. In contrast, LLaMA 3.2 models exhibit stronger stereotypical bias, suggesting overconfidence rather than neutrality. Third, compression introduces nuanced trade-offs: 4-bit AWQ quantization improves F1 scores in ambiguous settings for LLaMA 3.2-3B but increases disability-related bias in Phi-4-Mini by over 7 percentage points. These insights provide practical guidance for the responsible deployment of SLMs in applications demanding fairness and efficiency, particularly benefiting small enterprises and resource-constrained environments.
- Abstract(参考訳): オンデバイスおよびリソース制約のあるデプロイメントに対するSLM(Small Language Models)の急速な採用は、倫理的リスクに対する私たちの理解を大きく上回っています。
我々の知る限り、BERT級エンコーダとフラッグシップLLMの「中間層」として、0.5から50億のパラメータにまたがる命令調整SLMの大規模な監査を行う。
我々の評価には、Qwen 2.5、LLaMA 3.2、Gemma 3、Phiファミリーの9つのオープンソースモデルが含まれている。
ゼロショットプロンプト下でのBBQベンチマークを用いて、あいまいで曖昧な文脈における実用性と公平性の両方を分析する。
この評価には3つの重要な洞察がある。
Phiモデルは、最小バイアスを示しながらF1スコアを90%以上達成し、効率的で倫理的なNLPが達成可能であることを示す。
第二に、社会的バイアスはアーキテクチャによって大きく異なる: Qwen 2.5 モデルは公正に見えるかもしれないが、これはしばしば真の倫理的アライメントよりも、空虚な中立性、ランダムな推測、あるいは回避的な振る舞いを反映している。
対照的に、LLaMA 3.2モデルはより強いステレオタイプバイアスを示し、中立性よりも過信を示唆している。
4ビットのAWQ量子化はLLaMA 3.2-3Bの曖昧な設定でF1スコアを改善するが、Phi-4-Miniの障害関連バイアスを7%以上増加させる。
これらの知見は、公平性と効率性を必要とするアプリケーションにおいて、特に小規模企業や資源制約のある環境において、SLMを責任ある配置するための実践的なガイダンスを提供する。
関連論文リスト
- Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives [3.7731230532888036]
CLASH (Character perspective-based LLM Assessments in situations with High-Stakes) は、345のハイインパクトジレンマと3,795の個人視点からなるデータセットである。
GPT-4oやClaude-Sonnetのような最強のモデルでさえ、決定が曖昧であるべき状況を特定する上で、50%未満の精度を達成する。
論文 参考訳(メタデータ) (2025-04-15T02:54:16Z) - Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [69.68265487134686]
Video SimpleQAは、LVLMの事実性評価に適した最初の総合的なベンチマークである。
私たちの研究は、以下の重要な機能を通じて、既存のビデオベンチマークと区別します。
答えは、簡潔なフォーマットで曖昧で決定的に正しいものとして作成されます。
論文 参考訳(メタデータ) (2025-03-24T17:46:09Z) - Towards Large Language Models that Benefit for All: Benchmarking Group Fairness in Reward Models [16.977176752570617]
大規模言語モデル(LLM)は、ますます強力で、人間のユーザにとってアクセスしやすくなっている。
多様な人口集団、すなわちグループフェアネスの公平性を保証することは、批判的な倫理的関心事である。
この研究は、学習した報酬モデルのグループフェアネスをベンチマークする。
論文 参考訳(メタデータ) (2025-03-10T19:39:39Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - BeHonest: Benchmarking Honesty in Large Language Models [23.192389530727713]
我々は、大規模言語モデルにおける誠実さを評価するために特別に設計された、先駆的なベンチマークであるBeHonestを紹介する。
BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。
以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
論文 参考訳(メタデータ) (2024-06-19T06:46:59Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Model-tuning Via Prompts Makes NLP Models Adversarially Robust [97.02353907677703]
Model-tuning Via Prompts (MVP) による対向的ロバスト性の評価
MVPは、標準的な方法よりも平均8%の性能向上を実現している。
また,これらの利得の基盤となるメカニズムの解明も行なっている。
論文 参考訳(メタデータ) (2023-03-13T17:41:57Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。