論文の概要: But what is your honest answer? Aiding LLM-judges with honest alternatives using steering vectors
- arxiv url: http://arxiv.org/abs/2505.17760v2
- Date: Thu, 06 Nov 2025 11:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 15:57:27.604048
- Title: But what is your honest answer? Aiding LLM-judges with honest alternatives using steering vectors
- Title(参考訳): しかし、あなたの正直な答えは何だろうか? ステアリングベクトルを用いた正直な代替手段によるLCM-judgesの支援
- Authors: Leon Eshuijs, Archie Chaudhury, Alan McBeth, Ethan Nguyen,
- Abstract要約: Judge Using Safety-Steered Alternatives (JUSSA) は、推論中にステアリングベクトルを使用してより正直な代替品を生成するフレームワークである。
梅毒検出における JUSSA の評価を行い,複数種類の操作を対象とする新しい操作データセットを提案する。
システムの高度化に伴い,当社の作業は,スケーラブルなモデル監査のための新たな方向性を開拓します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting subtle forms of dishonesty like sycophancy and manipulation in Large Language Models (LLMs) remains challenging for both humans and automated evaluators, as these behaviors often appear through small biases rather than clear false statements. We introduce Judge Using Safety-Steered Alternatives (JUSSA), a novel framework that employs steering vectors not to improve model behavior directly, but to enhance LLM judges' evaluation capabilities. JUSSA applies steering vectors during inference to generate more honest alternatives, providing judges with contrastive examples that make subtle dishonest patterns easier to detect. While existing evaluation methods rely on black-box evaluation, JUSSA leverages model internals to create targeted comparisons from single examples. We evaluate our method on sycophancy detection and introduce a new manipulation dataset covering multiple types of manipulation. Our results demonstrate that JUSSA effectively improves detection accuracy over single-response evaluation in various cases. Analysis across judge models reveals that JUSSA helps weaker judges on easier dishonesty detection tasks, and stronger judges on harder tasks. Layer-wise experiments show how dishonest prompts cause representations to diverge from honest ones in middle layers, revealing where steering interventions are most effective for generating contrastive examples. By demonstrating that steering vectors can enhance safety evaluation rather than just modify behavior, our work opens new directions for scalable model auditing as systems become increasingly sophisticated.
- Abstract(参考訳): 大規模言語モデル(LLMs)における薬理学や操作のような微妙な不完全性を検出することは、人間と自動評価者の両方にとって依然として困難である。
本稿では, モデル動作を直接改善するのではなく, LLM裁判官の評価能力を高めるために, ステアリングベクターを用いた新しいフレームワークであるJUSSAについて紹介する。
JUSSAは推論中にベクトルを操り、より正直な代替品を生成する。
既存の評価手法はブラックボックス評価に依存しているが、JUSSAはモデル内部を活用して単一の例からターゲット比較を生成する。
梅毒検出の手法について検討し,複数種類の操作を対象とする新しい操作データセットを提案する。
以上の結果から, JUSSAは, 種々のケースにおいて, 単応答評価よりも検出精度を効果的に向上することが示された。
審査モデル全体での分析によると、JUSSAは、より容易な不正検出タスクの裁判官の弱体化と、より難しいタスクの裁判官の強化に役立っている。
レイヤーワイズ実験は、不正直なプロンプトが、中間層における正直なものから、どのようにして表現を分岐させるかを示し、ステアリングの介入が対照的な例を生成するのに最も効果的であるかを明らかにしている。
ステアリングベクターは、単に振る舞いを変更するのではなく、安全性評価を高めることができることを示すことによって、システムの高度化に伴い、スケーラブルなモデル監査のための新たな方向性が開かれる。
関連論文リスト
- Hidden in Plain Sight: Probing Implicit Reasoning in Multimodal Language Models [21.698247799954654]
マルチモーダルな大規模言語モデル(MLLM)は、オープンエンドの現実世界の環境にますます多くデプロイされている。
本稿では,現在のMLLMが暗黙の推論シナリオをどのように扱うのかを体系的に分析する。
モデルは、必要な知覚と推論スキルを持っている場合でも、隠れた問題にしばしば遭遇しない。
論文 参考訳(メタデータ) (2025-05-30T21:47:28Z) - Think Before Refusal : Triggering Safety Reflection in LLMs to Mitigate False Refusal Behavior [59.20260988638777]
本研究は, 応答発生前の安全反射の促進により, 虚偽の拒絶行動が軽減されることを実証する。
15種類の事前訓練モデルを対象としたアブレーション実験において, 安全性を考慮した微調整モデルでは, 誤検知の挙動が著しく低下することがわかった。
論文 参考訳(メタデータ) (2025-03-22T23:35:49Z) - Compromising Honesty and Harmlessness in Language Models via Deception Attacks [0.04499833362998487]
ディセプション・アタック(deception attack)は、ユーザーが選択したトピックをトリガーし、他の人に正確さを保ちながら、ユーザーを誤解させるようなモデルをカスタマイズする。
詐欺モデルもまた有害性を示し、ヘイトスピーチ、ステレオタイプ、その他の有害な内容を生成する。
論文 参考訳(メタデータ) (2025-02-12T11:02:59Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - BeHonest: Benchmarking Honesty in Large Language Models [23.192389530727713]
我々は、大規模言語モデルにおける誠実さを評価するために特別に設計された、先駆的なベンチマークであるBeHonestを紹介する。
BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。
以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
論文 参考訳(メタデータ) (2024-06-19T06:46:59Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Dishonesty in Helpful and Harmless Alignment [26.123327022999124]
大規模言語モデル(LLM)は、人間の好みを満たす場合の報酬を得る強化学習によって、人間の価値に整合している。
また、LSMが無害反応を生じさせると嘘をつくような無害なアライメントにおいても、これは不当な結果をもたらすことが判明した。
論文 参考訳(メタデータ) (2024-06-04T03:31:09Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - Despite "super-human" performance, current LLMs are unsuited for
decisions about ethics and safety [0.0]
我々は、もう1つの「スーパーヒューマン」な結果につながる、シンプルな新しいプロンプト戦略を提供します。
平均的なパフォーマンスを判断能力に頼っていることは、非常に誤解を招く可能性がある。
また、いくつかの例では、モデルサイズによる逆スケーリングの兆候を観察し、モデルに"推論を説明する"よう促すことが、しばしば非倫理的行動の顕著な正当化につながることを示す。
論文 参考訳(メタデータ) (2022-12-13T00:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。