論文の概要: STEER-BENCH: A Benchmark for Evaluating the Steerability of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.20645v2
- Date: Wed, 04 Jun 2025 06:18:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.443123
- Title: STEER-BENCH: A Benchmark for Evaluating the Steerability of Large Language Models
- Title(参考訳): STEER-BENCH:大規模言語モデルの安定性を評価するベンチマーク
- Authors: Kai Chen, Zihao He, Taiwei Shi, Kristina Lerman,
- Abstract要約: Steer-Benchは、Redditのコミュニティと対比して、人口固有のステアリングを評価するためのベンチマークである。
19のドメインにまたがる30のサブレディットペアをカバーし、Steer-Benchには10,000以上の命令応答ペアと5500の多重選択質問が含まれている。
一部のモデルでは、人間レベルのアライメントが15パーセント以上遅れており、コミュニティに敏感なステアビリティにおいて大きなギャップが浮かび上がっている。
- 参考スコア(独自算出の注目度): 13.751146591099298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Steerability, or the ability of large language models (LLMs) to adapt outputs to align with diverse community-specific norms, perspectives, and communication styles, is critical for real-world applications but remains under-evaluated. We introduce Steer-Bench, a benchmark for assessing population-specific steering using contrasting Reddit communities. Covering 30 contrasting subreddit pairs across 19 domains, Steer-Bench includes over 10,000 instruction-response pairs and validated 5,500 multiple-choice question with corresponding silver labels to test alignment with diverse community norms. Our evaluation of 13 popular LLMs using Steer-Bench reveals that while human experts achieve an accuracy of 81% with silver labels, the best-performing models reach only around 65% accuracy depending on the domain and configuration. Some models lag behind human-level alignment by over 15 percentage points, highlighting significant gaps in community-sensitive steerability. Steer-Bench is a benchmark to systematically assess how effectively LLMs understand community-specific instructions, their resilience to adversarial steering attempts, and their ability to accurately represent diverse cultural and ideological perspectives.
- Abstract(参考訳): さまざまなコミュニティ固有の規範、視点、コミュニケーションスタイルに合わせるためにアウトプットを適応する大規模言語モデル(LLM)の安定性は、現実世界のアプリケーションには不可欠だが、まだ過小評価されている。
Steer-Benchは、Redditのコミュニティと対比して、人口固有のステアリングを評価するためのベンチマークである。
19のドメインにまたがる30のサブレディットペアをカバーし、Steer-Benchは1万以上の命令応答ペアと5500の多重選択質問を含む。
Steer-Bench を用いた 13 個の LLM の評価では, 銀ラベルによる精度が 81% であるのに対して, 最適性能のモデルでは, ドメインや構成による精度は 65% 程度であった。
一部のモデルでは、人間レベルのアライメントが15パーセント以上遅れており、コミュニティに敏感なステアビリティにおいて大きなギャップが浮かび上がっている。
Steer-Benchは、LLMがコミュニティ固有の指示を効果的に理解し、敵の操る試みに対する弾力性、文化的・イデオロギー的な視点を正確に表現する能力について、体系的に評価するベンチマークである。
関連論文リスト
- VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs [70.4578433679737]
我々は9つの細工されたタスクにまたがる600万のサンプルからなるAudio-Visual Trustworthiness Assessment Benchmark (AVTrustBench)を紹介する。
ベンチマークを用いて、13の最先端AVLLMを広範囲に評価した。
その結果、既存のモデルのほとんどは、人間のような理解を達成できないことが判明した。
論文 参考訳(メタデータ) (2025-01-03T23:03:24Z) - Law of the Weakest Link: Cross Capabilities of Large Language Models [102.91861246827797]
我々は,Large Language Models (LLMs) が "Law of the Weakest Link" を示すことを示した。
これらの結果は, クロスキャパビリティタスクにおけるLLMの低性能化を浮き彫りにした。
論文 参考訳(メタデータ) (2024-09-30T05:12:01Z) - Constructing Domain-Specific Evaluation Sets for LLM-as-a-judge [15.980606104936365]
大規模言語モデル(LLM)は機械学習のランドスケープに革命をもたらしたが、現在のベンチマークは現実世界のアプリケーションでこれらのモデルの多様な振る舞いを捉えるのに不足していることが多い。
Alpaca-Eval 2.0 LC referenceubois2024length controlledalpacaevalsimpleway や Arena-Hard v0.1 citeli2024crowdsourced のような既存のフレームワークは、汎用的なクエリと法、医学、多言語コンテキストといったドメイン間の多様性の欠如によって制限されている。
LLM-asに適したドメイン固有の評価セットをキュレートする新しいデータパイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-16T15:41:43Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。