論文の概要: But what is your honest answer? Aiding LLM-judges with honest alternatives using steering vectors
- arxiv url: http://arxiv.org/abs/2505.17760v1
- Date: Fri, 23 May 2025 11:34:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.027246
- Title: But what is your honest answer? Aiding LLM-judges with honest alternatives using steering vectors
- Title(参考訳): しかし、あなたの正直な答えは何だろうか? ステアリングベクトルを用いた正直な代替手段によるLCM-judgesの支援
- Authors: Leon Eshuijs, Archie Chaudhury, Alan McBeth, Ethan Nguyen,
- Abstract要約: モデルからより正直な応答を引き出すために、単一のサンプルで訓練されたステアリングベクトルを利用する新しいフレームワークであるJUSSA(Jice Using Safety-Steered Alternatives)を導入する。
JUSSAにより、LLMの判断者は、不正直な反応と良心的な反応を区別し、微妙な操作行動の事例を特定することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent safety evaluations of Large Language Models (LLMs) show that many models exhibit dishonest behavior, such as sycophancy. However, most honesty benchmarks focus exclusively on factual knowledge or explicitly harmful behavior and rely on external judges, which are often unable to detect less obvious forms of dishonesty. In this work, we introduce a new framework, Judge Using Safety-Steered Alternatives (JUSSA), which utilizes steering vectors trained on a single sample to elicit more honest responses from models, helping LLM-judges in the detection of dishonest behavior. To test our framework, we introduce a new manipulation dataset with prompts specifically designed to elicit deceptive responses. We find that JUSSA enables LLM judges to better differentiate between dishonest and benign responses, and helps them identify subtle instances of manipulative behavior.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) の安全性評価は、多くのモデルが不正直な行動を示すことを示している。
しかし、最も正直なベンチマークは、事実的知識や明らかに有害な行動にのみ焦点をあて、外部の判断に頼っている。
本研究では,1つのサンプルで訓練されたステアリングベクトルを用いてモデルからより正直な応答を導き,不正直な行動の検出にLLM-judgesを支援する新しいフレームワークであるJUSSAについて紹介する。
フレームワークをテストするために,我々は,知覚応答を誘発するプロンプトを備えた新しい操作データセットを導入した。
JUSSAにより、LLMの判断者は、不正直な反応と良心的な反応を区別し、微妙な操作行動の事例を特定することができる。
関連論文リスト
- Compromising Honesty and Harmlessness in Language Models via Deception Attacks [0.04499833362998487]
ディセプション・アタック(deception attack)は、ユーザーが選択したトピックをトリガーし、他の人に正確さを保ちながら、ユーザーを誤解させるようなモデルをカスタマイズする。
詐欺モデルもまた有害性を示し、ヘイトスピーチ、ステレオタイプ、その他の有害な内容を生成する。
論文 参考訳(メタデータ) (2025-02-12T11:02:59Z) - BeHonest: Benchmarking Honesty in Large Language Models [23.192389530727713]
我々は、大規模言語モデルにおける誠実さを評価するために特別に設計された、先駆的なベンチマークであるBeHonestを紹介する。
BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。
以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
論文 参考訳(メタデータ) (2024-06-19T06:46:59Z) - Dishonesty in Helpful and Harmless Alignment [26.123327022999124]
大規模言語モデル(LLM)は、人間の好みを満たす場合の報酬を得る強化学習によって、人間の価値に整合している。
また、LSMが無害反応を生じさせると嘘をつくような無害なアライメントにおいても、これは不当な結果をもたらすことが判明した。
論文 参考訳(メタデータ) (2024-06-04T03:31:09Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - Despite "super-human" performance, current LLMs are unsuited for
decisions about ethics and safety [0.0]
我々は、もう1つの「スーパーヒューマン」な結果につながる、シンプルな新しいプロンプト戦略を提供します。
平均的なパフォーマンスを判断能力に頼っていることは、非常に誤解を招く可能性がある。
また、いくつかの例では、モデルサイズによる逆スケーリングの兆候を観察し、モデルに"推論を説明する"よう促すことが、しばしば非倫理的行動の顕著な正当化につながることを示す。
論文 参考訳(メタデータ) (2022-12-13T00:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。