Fugu-MT 論文翻訳(概要): But what is your honest answer? Aiding LLM-judges with honest alternatives using steering vectors

論文の概要: But what is your honest answer? Aiding LLM-judges with honest alternatives using steering vectors

arxiv url: http://arxiv.org/abs/2505.17760v1
Date: Fri, 23 May 2025 11:34:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:34.027246
Title: But what is your honest answer? Aiding LLM-judges with honest alternatives using steering vectors
Title（参考訳）: しかし、あなたの正直な答えは何だろうか? ステアリングベクトルを用いた正直な代替手段によるLCM-judgesの支援
Authors: Leon Eshuijs, Archie Chaudhury, Alan McBeth, Ethan Nguyen,
Abstract要約: モデルからより正直な応答を引き出すために、単一のサンプルで訓練されたステアリングベクトルを利用する新しいフレームワークであるJUSSA(Jice Using Safety-Steered Alternatives)を導入する。 JUSSAにより、LLMの判断者は、不正直な反応と良心的な反応を区別し、微妙な操作行動の事例を特定することができる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent safety evaluations of Large Language Models (LLMs) show that many models exhibit dishonest behavior, such as sycophancy. However, most honesty benchmarks focus exclusively on factual knowledge or explicitly harmful behavior and rely on external judges, which are often unable to detect less obvious forms of dishonesty. In this work, we introduce a new framework, Judge Using Safety-Steered Alternatives (JUSSA), which utilizes steering vectors trained on a single sample to elicit more honest responses from models, helping LLM-judges in the detection of dishonest behavior. To test our framework, we introduce a new manipulation dataset with prompts specifically designed to elicit deceptive responses. We find that JUSSA enables LLM judges to better differentiate between dishonest and benign responses, and helps them identify subtle instances of manipulative behavior.
Abstract（参考訳）: 近年のLarge Language Models (LLMs) の安全性評価は、多くのモデルが不正直な行動を示すことを示している。しかし、最も正直なベンチマークは、事実的知識や明らかに有害な行動にのみ焦点をあて、外部の判断に頼っている。本研究では,1つのサンプルで訓練されたステアリングベクトルを用いてモデルからより正直な応答を導き,不正直な行動の検出にLLM-judgesを支援する新しいフレームワークであるJUSSAについて紹介する。フレームワークをテストするために,我々は,知覚応答を誘発するプロンプトを備えた新しい操作データセットを導入した。 JUSSAにより、LLMの判断者は、不正直な反応と良心的な反応を区別し、微妙な操作行動の事例を特定することができる。

関連論文リスト

Hidden in Plain Sight: Probing Implicit Reasoning in Multimodal Language Models [21.698247799954654]
マルチモーダルな大規模言語モデル(MLLM)は、オープンエンドの現実世界の環境にますます多くデプロイされている。本稿では,現在のMLLMが暗黙の推論シナリオをどのように扱うのかを体系的に分析する。モデルは、必要な知覚と推論スキルを持っている場合でも、隠れた問題にしばしば遭遇しない。
論文参考訳（メタデータ） (2025-05-30T21:47:28Z)
Think Before Refusal : Triggering Safety Reflection in LLMs to Mitigate False Refusal Behavior [59.20260988638777]
本研究は, 応答発生前の安全反射の促進により, 虚偽の拒絶行動が軽減されることを実証する。 15種類の事前訓練モデルを対象としたアブレーション実験において, 安全性を考慮した微調整モデルでは, 誤検知の挙動が著しく低下することがわかった。
論文参考訳（メタデータ） (2025-03-22T23:35:49Z)
Compromising Honesty and Harmlessness in Language Models via Deception Attacks [0.04499833362998487]
ディセプション・アタック(deception attack)は、ユーザーが選択したトピックをトリガーし、他の人に正確さを保ちながら、ユーザーを誤解させるようなモデルをカスタマイズする。詐欺モデルもまた有害性を示し、ヘイトスピーチ、ステレオタイプ、その他の有害な内容を生成する。
論文参考訳（メタデータ） (2025-02-12T11:02:59Z)
JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文参考訳（メタデータ） (2024-10-16T17:58:19Z)
BeHonest: Benchmarking Honesty in Large Language Models [23.192389530727713]
我々は、大規模言語モデルにおける誠実さを評価するために特別に設計された、先駆的なベンチマークであるBeHonestを紹介する。 BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
論文参考訳（メタデータ） (2024-06-19T06:46:59Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Dishonesty in Helpful and Harmless Alignment [26.123327022999124]
大規模言語モデル(LLM)は、人間の好みを満たす場合の報酬を得る強化学習によって、人間の価値に整合している。また、LSMが無害反応を生じさせると嘘をつくような無害なアライメントにおいても、これは不当な結果をもたらすことが判明した。
論文参考訳（メタデータ） (2024-06-04T03:31:09Z)
On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文参考訳（メタデータ） (2024-01-31T17:28:24Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文参考訳（メタデータ） (2023-10-16T14:59:10Z)
Despite "super-human" performance, current LLMs are unsuited for decisions about ethics and safety [0.0]
我々は、もう1つの「スーパーヒューマン」な結果につながる、シンプルな新しいプロンプト戦略を提供します。平均的なパフォーマンスを判断能力に頼っていることは、非常に誤解を招く可能性がある。また、いくつかの例では、モデルサイズによる逆スケーリングの兆候を観察し、モデルに"推論を説明する"よう促すことが、しばしば非倫理的行動の顕著な正当化につながることを示す。
論文参考訳（メタデータ） (2022-12-13T00:29:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。