論文の概要: Eliciting Language Model Behaviors with Investigator Agents
- arxiv url: http://arxiv.org/abs/2502.01236v1
- Date: Mon, 03 Feb 2025 10:52:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:05:48.444828
- Title: Eliciting Language Model Behaviors with Investigator Agents
- Title(参考訳): 調査員による言語モデル行動の緩和
- Authors: Xiang Lisa Li, Neil Chowdhury, Daniel D. Johnson, Tatsunori Hashimoto, Percy Liang, Sarah Schwettmann, Jacob Steinhardt,
- Abstract要約: 言語モデルは、自由形式のテキストで促されるとき、複雑で多様な振る舞いを示す。
本研究の目的は,特定の対象行動を引き起こすプロンプトを探索することである。
我々は調査員モデルを訓練し、ランダムに目的とする振る舞いを、それらを引き出す出力の多様な分布にマッピングする。
- 参考スコア(独自算出の注目度): 93.34072434845162
- License:
- Abstract: Language models exhibit complex, diverse behaviors when prompted with free-form text, making it difficult to characterize the space of possible outputs. We study the problem of behavior elicitation, where the goal is to search for prompts that induce specific target behaviors (e.g., hallucinations or harmful responses) from a target language model. To navigate the exponentially large space of possible prompts, we train investigator models to map randomly-chosen target behaviors to a diverse distribution of outputs that elicit them, similar to amortized Bayesian inference. We do this through supervised fine-tuning, reinforcement learning via DPO, and a novel Frank-Wolfe training objective to iteratively discover diverse prompting strategies. Our investigator models surface a variety of effective and human-interpretable prompts leading to jailbreaks, hallucinations, and open-ended aberrant behaviors, obtaining a 100% attack success rate on a subset of AdvBench (Harmful Behaviors) and an 85% hallucination rate.
- Abstract(参考訳): 言語モデルは、自由形式のテキストによって引き起こされる複雑な多様な振る舞いを示すため、出力の空間を特徴付けることは困難である。
本研究では, 対象言語モデルから特定の対象行動(幻覚, 有害反応)を誘発するプロンプトを探索することを目的とする行動誘発問題について検討する。
可能なプロンプトの指数関数的に大きな空間をナビゲートするために、調査員モデルにランダムなチョーゼン対象の振る舞いを、それらを引き出す様々な出力の分布にマッピングするように訓練する。
我々は,DPOによる微調整,強化学習,および多種多様なプロンプト戦略を反復的に発見するための新たなフランク=ウルフ訓練目標を通じてこれを実施する。
本研究は,AdvBench (Harmful Behaviors) のサブセットで100%の攻撃成功率と85%の幻覚率を得るとともに,ジェイルブレイク,幻覚,オープンエンドの異常行動につながる様々な効果的かつ人為的なプロンプトを提示する。
関連論文リスト
- Steganography in Game Actions [8.095373104009868]
本研究は, 実効性のあるステガノグラフィー媒体であると考えられるものの境界を拡大することを目的としている。
本研究では,環境と対話する複数のエージェントのエピソードを通して,隠れた情報を伝達するステガノグラフィーのパラダイムを探求する。
概念実証として,目的に向かって操る行為において,サブリミナル通信を隠蔽するナビゲーションタスクであるラビリンスゲームを通じて,アクションステガノグラフィーを例示する。
論文 参考訳(メタデータ) (2024-12-11T12:02:36Z) - What could go wrong? Discovering and describing failure modes in computer vision [27.6114923305978]
言語に基づく誤り説明可能性(LBEE)の問題を定式化する。
我々は,共同視覚・言語埋め込み空間で機能するソリューションを提案する。
提案手法は,特定の誤りの原因に関連する非自明な文を分離する。
論文 参考訳(メタデータ) (2024-08-08T14:01:12Z) - From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty [67.81977289444677]
大型言語モデル(LLM)は幻覚やシーケンスの繰り返しのような望ましくない振る舞いを示すことが多い。
転倒行動(シークエンス反復、退化テキスト、幻覚)を分類し、それらを広範囲に分析する。
我々の実験では、これらのすべての軸にまたがる、明確な、一貫したフォールバック動作の順序が明らかになりました。
論文 参考訳(メタデータ) (2024-07-08T16:13:42Z) - Chaos with Keywords: Exposing Large Language Models Sycophantic Hallucination to Misleading Keywords and Evaluating Defense Strategies [47.92996085976817]
本研究では,Large Language Models (LLMs) の梅毒傾向について検討する。
LLMは、たとえ完全に正しくなくても、ユーザが聞きたいものと一致した回答を提供する傾向があります。
論文 参考訳(メタデータ) (2024-06-06T08:03:05Z) - A Cause-Effect Look at Alleviating Hallucination of Knowledge-grounded Dialogue Generation [51.53917938874146]
我々は,対話知識の相互作用を利用して,KGDの幻覚を緩和するための解決策を提案する。
本手法は,他の対話性能を損なうことなく幻覚を低減できることを示す。
論文 参考訳(メタデータ) (2024-04-04T14:45:26Z) - Passive learning of active causal strategies in agents and language
models [15.086300301260811]
純粋受動的学習は、エージェントが因果構造を決定・使用するための一般化可能な戦略を学習できることを示す。
専門家データに対する模倣によって訓練されたエージェントは、実際に、トレーニングデータに存在しない因果関係を推論し、使用するためにテスト時に一般化できることを示す。
説明は受動的学習者が完全に確立されたトレーニングデータからアウト・オブ・ディストリビューションを一般化することを可能にする。
論文 参考訳(メタデータ) (2023-05-25T15:39:46Z) - Mutual Information Alleviates Hallucinations in Abstractive
Summarization [73.48162198041884]
モデルが生成中の幻覚コンテンツにより多くの確率を割り当てる可能性が著しく高いという単純な基準を見いだす。
この発見は幻覚の潜在的な説明を提供する:モデルは、継続について不確実な場合には、高い限界確率のテキストを好むことをデフォルトとする。
そこで本研究では,ターゲットトークンの正当性ではなく,ソースとターゲットトークンのポイントワイドな相互情報の最適化に切り替える復号手法を提案する。
論文 参考訳(メタデータ) (2022-10-24T13:30:54Z) - Noisy Agents: Self-supervised Exploration by Predicting Auditory Events [127.82594819117753]
本稿では, エージェントが行動の因果的影響を理解することを奨励する, 強化学習(Reinforcement Learning, RL)の本質的なモチベーションを提案する。
ニューラルネットワークを用いて聴覚事象を予測し、予測誤差を本質的な報奨として利用し、RL探索を誘導する。
Atariゲームの実験結果から、我々の新しい本質的な動機は、最先端のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。