論文の概要: CALM: Curiosity-Driven Auditing for Large Language Models
- arxiv url: http://arxiv.org/abs/2501.02997v1
- Date: Mon, 06 Jan 2025 13:14:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:09:19.789455
- Title: CALM: Curiosity-Driven Auditing for Large Language Models
- Title(参考訳): CALM: 大規模言語モデルのための好奇心駆動型監査
- Authors: Xiang Zheng, Longxiang Wang, Yi Liu, Xingjun Ma, Chao Shen, Cong Wang,
- Abstract要約: 本稿では,LLMを監査エージェントとして微調整するために,大規模言語モデルのための好奇心駆動型監査(CALM)を提案する。
CALMは、有名人を含む嫌悪的な完成をうまく識別し、ブラックボックス設定の下で特定の名前を引き出す入力を明らかにする。
- 参考スコア(独自算出の注目度): 27.302357350862085
- License:
- Abstract: Auditing Large Language Models (LLMs) is a crucial and challenging task. In this study, we focus on auditing black-box LLMs without access to their parameters, only to the provided service. We treat this type of auditing as a black-box optimization problem where the goal is to automatically uncover input-output pairs of the target LLMs that exhibit illegal, immoral, or unsafe behaviors. For instance, we may seek a non-toxic input that the target LLM responds to with a toxic output or an input that induces the hallucinative response from the target LLM containing politically sensitive individuals. This black-box optimization is challenging due to the scarcity of feasible points, the discrete nature of the prompt space, and the large search space. To address these challenges, we propose Curiosity-Driven Auditing for Large Language Models (CALM), which uses intrinsically motivated reinforcement learning to finetune an LLM as the auditor agent to uncover potential harmful and biased input-output pairs of the target LLM. CALM successfully identifies derogatory completions involving celebrities and uncovers inputs that elicit specific names under the black-box setting. This work offers a promising direction for auditing black-box LLMs. Our code is available at https://github.com/x-zheng16/CALM.git.
- Abstract(参考訳): 大規模言語モデル(LLM)の監査は決定的かつ困難な課題である。
本研究では,提供するサービスに限って,パラメータにアクセスせずにブラックボックスLLMを監査することに焦点を当てた。
我々は、このような監査をブラックボックス最適化問題として扱い、目的は違法、不道徳、安全でない振る舞いを示すターゲットLLMの入出力ペアを自動的に発見することである。
例えば、ターゲットLSMが有害な出力で応答する非毒性な入力や、政治的に敏感な個人を含むターゲットLSMから幻覚応答を誘導する入力を求めることができる。
このブラックボックス最適化は、実現可能な点の不足、プロンプト空間の離散的性質、および大きな探索空間のために困難である。
これらの課題に対処するために,本研究では,LLMを監査エージェントとして微調整するために,本質的に動機付けされた強化学習を用いた大規模言語モデルのためのキュリオシティ駆動監査(CALM)を提案する。
CALMは、有名人を含む嫌悪的な完成をうまく識別し、ブラックボックス設定の下で特定の名前を引き出す入力を明らかにする。
この研究は、ブラックボックスLSMの監査に有望な方向性を提供する。
私たちのコードはhttps://github.com/x-zheng16/CALM.git.comで公開されています。
関連論文リスト
- LLM The Genius Paradox: A Linguistic and Math Expert's Struggle with Simple Word-based Counting Problems [28.72485319617863]
LLMは、人間が扱いやすいようないくつかの基本的なタスク、例えば単語トラウベリーの文字数rを数えるのに苦労する。
我々は,高度な数学的およびコーディング推論能力の伝達可能性について,特殊なLCMから単純なカウントタスクまでの測定を行う。
微調整や文脈内学習といった戦略と比較すると、係り受け推論はLLMのタスクをより知覚するのに役立つ最も堅牢で効率的な方法であることがわかる。
論文 参考訳(メタデータ) (2024-10-18T04:17:16Z) - Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models [49.87432626548563]
本稿では,一般公開LALMの物体幻覚の程度を評価する手法を提案する。
以上の結果から,LALMは音声コンテンツの理解において,特別な音声キャプションモデルに匹敵するものであることが明らかとなった。
差別的質問に対するLALMの性能を高めるために,迅速なエンジニアリングの可能性を探る。
論文 参考訳(メタデータ) (2024-06-12T16:51:54Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization [12.885866125783618]
大規模言語モデル(LLM)は、特定のクエリに対する不正確な応答を生成する傾向がある。
我々は, LLMのトークン化に挑戦するために, $textbfADT (TokenizerのAdrial dataset)$という逆データセットを構築した。
GPT-4o, Llama-3, Qwen2.5-maxなど, 先進LLMのトークン化に挑戦する上で, 当社のADTは極めて有効であることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-27T11:39:59Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - TRAP: Targeted Random Adversarial Prompt Honeypot for Black-Box Identification [41.25887364156612]
ブラックボックス認証(BBIV)の新たな指紋認証問題について述べる。
目標は、サードパーティアプリケーションがチャット機能を通じて特定のLLMを使用するかどうかを判断することである。
本稿では,TRAP (Targeted Random Adversarial Prompt) と呼ばれる,特定のLPMを識別する手法を提案する。
論文 参考訳(メタデータ) (2024-02-20T13:20:39Z) - Machine Unlearning in Large Language Models [8.14992136443131]
本稿では,大規模言語モデルに新しい機械学習フレームワークを導入する。
我々の目標は、LSMが有害、幻覚、あるいはプライバシーを侵害する応答を生じさせないようにすることです。
実験結果から,本手法はモデル性能を実質的に損なうことなく,学習対象を効果的に満たすことが示唆された。
論文 参考訳(メタデータ) (2024-02-03T05:14:56Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。