論文の概要: How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities
- arxiv url: http://arxiv.org/abs/2603.02578v1
- Date: Tue, 03 Mar 2026 03:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.629476
- Title: How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities
- Title(参考訳): 大規模言語モデルはどのように制御可能か? 行動粒度をまたいだ統一評価
- Authors: Ziwen Xu, Kewei Xu, Haoming Xu, Haiwen Hong, Longtao Huang, Hui Xue, Ningyu Zhang, Yongliang Shen, Guozhou Zheng, Huajun Chen, Shumin Deng,
- Abstract要約: 大規模言語モデル(LLM)は、社会的に敏感なドメインにますますデプロイされる。
私たちのベンチマークでは、安全で制御可能な振る舞いのための原則的で解釈可能なフレームワークを提供しています。
- 参考スコア(独自算出の注目度): 75.10343190811592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in socially sensitive domains, yet their unpredictable behaviors, ranging from misaligned intent to inconsistent personality, pose significant risks. We introduce SteerEval, a hierarchical benchmark for evaluating LLM controllability across three domains: language features, sentiment, and personality. Each domain is structured into three specification levels: L1 (what to express), L2 (how to express), and L3 (how to instantiate), connecting high-level behavioral intent to concrete textual output. Using SteerEval, we systematically evaluate contemporary steering methods, revealing that control often degrades at finer-grained levels. Our benchmark offers a principled and interpretable framework for safe and controllable LLM behavior, serving as a foundation for future research.
- Abstract(参考訳): 大きな言語モデル(LLM)は、社会的に敏感なドメインにますますデプロイされているが、その予測不可能な振る舞いは、不整合意図から一貫性のないパーソナリティまで、重大なリスクをもたらしている。
言語の特徴,感情,パーソナリティの3つの領域にわたるLSM制御性を評価するための階層的ベンチマークであるSteerEvalを紹介する。
各ドメインは、L1(表現方法)、L2(表現方法)、L3(インスタンス化方法)の3つの仕様レベルに分類される。
SteerEvalを用いて、同時代のステアリング手法を体系的に評価し、制御がよりきめ細かいレベルで劣化することを明らかにする。
我々のベンチマークは、安全かつ制御可能なLCM動作のための原則的で解釈可能なフレームワークを提供し、将来の研究の基盤として役立ちます。
関連論文リスト
- VALUEFLOW: Toward Pluralistic and Steerable Value-based Alignment in Large Language Models [9.511622126333105]
VALUEFLOWは、キャリブレーションされた強度制御による抽出、評価、ステアリングにまたがるフレームワークである。
我々は、10のモデルと4つの値理論にまたがる大規模な研究を行い、多値制御のための可操性および組成則の非対称性を特定した。
論文 参考訳(メタデータ) (2026-02-03T06:19:57Z) - Learned-Rule-Augmented Large Language Model Evaluators [5.4343364964031124]
大規模言語モデル(LLM)は、主に自然言語生成(NLG)タスクの評価器として使用される。
本研究は,多種多様なタスクにまたがる汎用評価器としてのLLMの可能性を探るものである。
論文 参考訳(メタデータ) (2025-12-01T18:08:45Z) - Pluralistic Behavior Suite: Stress-Testing Multi-Turn Adherence to Custom Behavioral Policies [18.428149174461264]
PBSUITEは,多元的アライメント仕様に従うために,大規模言語モデルの能力を評価するために設計された動的評価スイートである。
オープンおよびクローズドソースのLLMは、単一ターン設定における行動ポリシーに頑健に固執するが、そのコンプライアンスはマルチターンの対角的相互作用において著しく弱まる。
論文 参考訳(メタデータ) (2025-11-07T06:43:01Z) - Dissecting Logical Reasoning in LLMs: A Fine-Grained Evaluation and Supervision Study [40.143148197878354]
我々は3次元にわたる論理的推論を評価するためのきめ細かい評価フレームワークであるFinalLogicを紹介した。
微調整形推論能力の異なる監督形式について検討する。
自然言語の監督は一般化において優れており、シンボリックな監督は構造的に健全な原子推論のステップを打つのに優れている。
論文 参考訳(メタデータ) (2025-06-05T09:34:12Z) - Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [106.17986469245302]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - Towards LLM Guardrails via Sparse Representation Steering [11.710399901426873]
大規模言語モデル(LLM)は、自然言語生成タスクにおいて顕著な性能を示した。
SREと呼ばれるスパース符号化に基づく表現工学手法を提案し、ポリセマンティックなアクティベーションを構造化された単セマンティックな特徴空間に分解する。
スパースオートエンコーディングを活用することで,タスク固有のスパース特徴次元のみを分離・調整し,モデル動作の精密かつ解釈可能なステアリングを可能にする。
論文 参考訳(メタデータ) (2025-03-21T04:50:25Z) - Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は驚くべきブレークスルーを達成する。
価値を人間に合わせることは 責任ある開発に欠かせないものになっています
3つの望ましい目標を達成するLLMの評価はいまだに欠けている。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios [58.90106984375913]
RuleArenaは、大規模言語モデル(LLM)が推論において複雑な現実世界のルールに従う能力を評価するために設計された、新しくて挑戦的なベンチマークである。
航空会社の荷物手数料、NBA取引、税制の3つの実践的領域をカバーするルールアリーナは、複雑な自然言語命令を扱うのにLLMの習熟度を評価する。
論文 参考訳(メタデータ) (2024-12-12T06:08:46Z) - DECIDER: A Dual-System Rule-Controllable Decoding Framework for Language Generation [57.07295906718989]
制約付き復号法は,事前訓練された大言語(Ms と PLMs)が生成するテキストの意味やスタイルを,推論時に様々なタスクに対して制御することを目的としている。
これらの方法は、しばしば、欲求的かつ明示的にターゲットを選択することによって、もっともらしい連続を導く。
認知二重プロセス理論に着想を得て,新しい復号化フレームワークDECDERを提案する。
論文 参考訳(メタデータ) (2024-03-04T11:49:08Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。