論文の概要: A Course Correction in Steerability Evaluation: Revealing Miscalibration and Side Effects in LLMs
- arxiv url: http://arxiv.org/abs/2505.23816v1
- Date: Tue, 27 May 2025 21:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.532379
- Title: A Course Correction in Steerability Evaluation: Revealing Miscalibration and Side Effects in LLMs
- Title(参考訳): ステアビリティ評価のコース補正--LLMの校正と副作用-
- Authors: Trenton Chang, Tobias Schnabel, Adith Swaminathan, Jenna Wiens,
- Abstract要約: 大規模言語モデルが幅広いユーザ目標に沿ったアウトプットを生成できるかどうかは不明だ。
プロンプトエンジニアリングのような操縦性を改善するための介入は、様々な効果がある。
強力なLCMでさえ操舵性に苦しむが、既存のアライメント戦略は不十分である。
- 参考スコア(独自算出の注目度): 14.334903198382287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite advances in large language models (LLMs) on reasoning and instruction-following benchmarks, it remains unclear whether they can reliably produce outputs aligned with a broad variety of user goals, a concept we refer to as steerability. The abundance of methods proposed to modify LLM behavior makes it unclear whether current LLMs are already steerable, or require further intervention. In particular, LLMs may exhibit (i) poor coverage, where rare user goals are underrepresented; (ii) miscalibration, where models overshoot requests; and (iii) side effects, where changes to one dimension of text inadvertently affect others. To systematically evaluate these failures, we introduce a framework based on a multi-dimensional goal space that models user goals and LLM outputs as vectors with dimensions corresponding to text attributes (e.g., reading difficulty). Applied to a text-rewriting task, we find that current LLMs struggle with steerability, as side effects are persistent. Interventions to improve steerability, such as prompt engineering, best-of-$N$ sampling, and reinforcement learning fine-tuning, have varying effectiveness, yet side effects remain problematic. Our findings suggest that even strong LLMs struggle with steerability, and existing alignment strategies may be insufficient. We open-source our steerability evaluation framework at https://github.com/MLD3/steerability.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論と命令追従ベンチマークの進歩にもかかわらず、広範囲のユーザ目標に沿ったアウトプットを確実に生成できるかどうかは不明であり、この概念はステアビリティ(steerability)と呼ばれている。
LLMの動作を変更するための多くの手法が提案されているため、現在のLCMが既に操縦可能であるか、さらなる介入が必要であるかは明らかでない。
特に LLM は
(i) 希少なユーザ目標の表現が不十分なカバレッジ
(二 モデルが要求を過度に処理する誤校正、及び
(三)一方のテキストの次元の変化が相手に不注意に影響を及ぼす副作用。
これらの失敗を体系的に評価するために、ユーザ目標とLCM出力をテキスト属性(例えば読み難い)に対応する次元のベクトルとしてモデル化する多次元目標空間に基づくフレームワークを導入する。
テキスト書き起こしタスクに適用すると、副作用が持続的であるため、現在のLLMはステアビリティに苦しむ。
迅速なエンジニアリング、ベスト・オブ・N$サンプリング、強化学習の微調整など、操縦性を改善するための介入は、様々な効果があるが、副作用は依然として問題である。
以上の結果から,強いLCMでさえ操舵性に苦慮し,既存のアライメント戦略が不十分である可能性が示唆された。
私たちはsteerability評価フレームワークをhttps://github.com/MLD3/steerability.comでオープンソース化しました。
関連論文リスト
- Enhancing LLM Robustness to Perturbed Instructions: An Empirical Study [8.827173113748701]
ダウンストリーム性能を著しく低下させるタスク特化命令の文字・単語レベルの編集について検討した。
平均的に、自己否定は、代替戦略よりも大幅に高いパフォーマンス向上を達成することが分かっています。
論文 参考訳(メタデータ) (2025-04-03T16:17:56Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - A Causal Explainable Guardrails for Large Language Models [29.441292837667415]
大規模言語モデル(LLM)は自然言語処理において顕著な性能を示すが、その出力は望ましくない属性やバイアスを示すことができる。
LLMGuardrailは、因果解析と逆学習を組み込んだ新しいフレームワークで、偏りのない操舵表現を得る。
論文 参考訳(メタデータ) (2024-05-07T09:55:05Z) - Evaluation and Improvement of Fault Detection for Large Language Models [30.760472387136954]
本稿では,大規模言語モデル(LLM)における既存の故障検出手法の有効性について検討する。
既存の手法の故障検出能力を高めるために, textbfMutation による予測を行う textbfConfidence textbfSmoothing フレームワーク textbfMuCS を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:06:12Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Prompting Large Language Models for Counterfactual Generation: An
Empirical Study [13.506528217009507]
大規模言語モデル(LLM)は、幅広い自然言語理解と生成タスクにおいて顕著な進歩を遂げている。
本稿では,様々な種類のNLUタスクに対する総合的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-24T06:44:32Z) - Editing Large Language Models: Problems, Methods, and Opportunities [51.903537096207]
本稿では, LLMのモデル編集に関わる問題, 方法, 機会を深く探究する。
本稿では,モデル編集に関わるタスク定義と課題の概観と,現在処理中の最も進歩的な手法の詳細な実証分析について述べる。
本研究の目的は,各編集手法の有効性と実現可能性に関する貴重な知見を提供することであり,特定のタスクやコンテキストに対して,最も適切な方法の選択に関する情報決定を行う上で,コミュニティを支援することである。
論文 参考訳(メタデータ) (2023-05-22T16:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。