論文の概要: The Elicitation Game: Evaluating Capability Elicitation Techniques
- arxiv url: http://arxiv.org/abs/2502.02180v2
- Date: Mon, 24 Feb 2025 18:51:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:19:31.771121
- Title: The Elicitation Game: Evaluating Capability Elicitation Techniques
- Title(参考訳): The Elicitation Game: Evaluating Capability Elicitation Techniques
- Authors: Felix Hofstätter, Teun van der Weij, Jayden Teoh, Henning Bartsch, Francis Rhys Ward,
- Abstract要約: 本研究は, モデル生物を意図的に訓練し, 能力評価手法の有効性を評価する。
本稿では, 回路破壊に基づくモデル生物の訓練手法を提案する。
コード生成タスクでは、ファインチューニングだけが、新しいモデル生物の隠れた能力を引き出すことができます。
- 参考スコア(独自算出の注目度): 1.064108398661507
- License:
- Abstract: Capability evaluations are required to understand and regulate AI systems that may be deployed or further developed. Therefore, it is important that evaluations provide an accurate estimation of an AI system's capabilities. However, in numerous cases, previously latent capabilities have been elicited from models, sometimes long after initial release. Accordingly, substantial efforts have been made to develop methods for eliciting latent capabilities from models. In this paper, we evaluate the effectiveness of capability elicitation techniques by intentionally training model organisms -- language models with hidden capabilities that are revealed by a password. We introduce a novel method for training model organisms, based on circuit breaking, which is more robust to elicitation techniques than standard password-locked models. We focus on elicitation techniques based on prompting and activation steering, and compare these to fine-tuning methods. Prompting techniques can elicit the actual capability of both password-locked and circuit-broken model organisms in an MCQA setting, while steering fails to do so. For a code-generation task, only fine-tuning can elicit the hidden capabilities of our novel model organism. Additionally, our results suggest that combining techniques improves elicitation. Still, if possible, fine-tuning should be the method of choice to improve the trustworthiness of capability evaluations.
- Abstract(参考訳): 能力評価は、デプロイまたはさらなる開発が可能なAIシステムを理解し、規制するために必要である。
したがって、評価がAIシステムの能力を正確に見積もることが重要である。
しかし、多くのケースでは、以前の潜伏能力は、最初のリリースから長い時間後、モデルから引き出された。
そのため,モデルから潜在能力を引き出す手法の開発に多大な努力が払われている。
本稿では,隠蔽能力を持つ言語モデルであるモデル生物を意図的に訓練し,能力付与手法の有効性を評価する。
本稿では,標準的なパスワードロックモデルよりもエレケーション技術に頑健な回路破壊に基づくモデル生物の訓練手法を提案する。
本稿では,アクティベーションステアリングの促進と活性化に基づくエレキュベーション技術に着目し,これらを微調整法と比較する。
プロンプティング技術は、MCQA設定でパスワードロックされたモデル生物とサーキットブレークされたモデル生物の両方の実際の能力を引き出すことができるが、ステアリングはそれを行うことができない。
コード生成タスクでは、ファインチューニングだけが、新しいモデル生物の隠れた能力を引き出すことができます。
さらに,本研究の結果から,組み合わせ手法がエレキュベーションを改善することが示唆された。
それでも、可能であれば、微調整は能力評価の信頼性を改善するための選択方法であるべきです。
関連論文リスト
- Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Can Language Models Learn to Skip Steps? [59.84848399905409]
我々は推論においてステップをスキップする能力について研究する。
効率を高めたり認知負荷を減らすためのステップをスキップする人間とは異なり、モデルはそのようなモチベーションを持っていない。
私たちの研究は、人間のようなステップスキッピング能力に関する最初の調査である。
論文 参考訳(メタデータ) (2024-11-04T07:10:24Z) - Model Developmental Safety: A Retention-Centric Method and Applications in Vision-Language Models [75.8161094916476]
本稿では,事前学習された視覚言語モデル,特にCLIPモデルの開発手法について検討する。
自律走行とシーン認識データセットにおける視覚知覚能力の向上に関する実験は,提案手法の有効性を実証するものである。
論文 参考訳(メタデータ) (2024-10-04T22:34:58Z) - Can Reinforcement Learning Unlock the Hidden Dangers in Aligned Large Language Models? [3.258629327038072]
大規模言語モデル(LLM)は、自然言語処理における印象的な機能を示している。
しかし、これらのモデルによって有害なコンテンツを生成する可能性は持続しているようだ。
本稿では,LLMをジェイルブレイクし,敵の引き金を通したアライメントを逆転させる概念について検討する。
論文 参考訳(メタデータ) (2024-08-05T17:27:29Z) - AI Sandbagging: Language Models can Strategically Underperform on Evaluations [1.0485739694839669]
信頼できる能力評価は、AIシステムの安全性を保証するために不可欠である。
AIシステムの開発者は、AIの実際の能力を説明するための評価のためのインセンティブを持つことができる。
本稿では,現代言語モデルにおけるサンドバッグ機能の評価を行う。
論文 参考訳(メタデータ) (2024-06-11T15:26:57Z) - Stress-Testing Capability Elicitation With Password-Locked Models [6.6380867311877605]
本研究は,微調整による誘発が能力を引き出すのに十分である条件について検討する。
いくつかの高品質なデモは、パスワードでロックされた機能を完全に引き出すのに十分であることがわかった。
評価だけでなく、実演も利用できる場合、強化学習のようなアプローチは、能力を引き出すことができることが多い。
論文 参考訳(メタデータ) (2024-05-29T22:26:26Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Define, Evaluate, and Improve Task-Oriented Cognitive Capabilities for
Instruction Generation Models [5.975913042883176]
最近の研究は、人間のために設計された心理学的テストを通して言語モデルの認知能力を研究する。
我々は、言語モデルがタスクを実行するために利用する人間のような認知能力であるタスク指向認知能力を定式化する。
論文 参考訳(メタデータ) (2022-12-21T04:43:19Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - Multicriteria interpretability driven Deep Learning [0.0]
ディープラーニングの手法はパフォーマンスで有名だが、その解釈可能性の欠如は、高い文脈での学習を妨げている。
近年のモデル手法では、モデルの内部動作をリバースエンジニアリングすることで、ポストホック解釈可能性法を提供することでこの問題に対処している。
本稿では,目的関数に知識を注入することで,モデルの結果に特徴的影響を制御できるマルチクレータ非依存手法を提案する。
論文 参考訳(メタデータ) (2021-11-28T09:41:13Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。