論文の概要: Can't say cant? Measuring and Reasoning of Dark Jargons in Large Language Models
- arxiv url: http://arxiv.org/abs/2405.00718v1
- Date: Thu, 25 Apr 2024 17:25:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-05 17:44:45.352864
- Title: Can't say cant? Measuring and Reasoning of Dark Jargons in Large Language Models
- Title(参考訳): 言い切れない? 大規模言語モデルにおけるダーク・ジャーゴンの測定と推論
- Authors: Xu Ji, Jianyi Zhang, Ziyin Zhou, Zhangchi Zhao, Qianqian Qiao, Kaiying Han, Md Imran Hossen, Xiali Hei,
- Abstract要約: 本稿ではドメイン固有のCantデータセットとCantCounter評価フレームワークを紹介する。
実験の結果、LLMはフィルタを通過できないことが判明した。
更新されたモデルは、cantクエリの受け入れ率が高い。
- 参考スコア(独自算出の注目度): 10.666290735480821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring the resilience of Large Language Models (LLMs) against malicious exploitation is paramount, with recent focus on mitigating offensive responses. Yet, the understanding of cant or dark jargon remains unexplored. This paper introduces a domain-specific Cant dataset and CantCounter evaluation framework, employing Fine-Tuning, Co-Tuning, Data-Diffusion, and Data-Analysis stages. Experiments reveal LLMs, including ChatGPT, are susceptible to cant bypassing filters, with varying recognition accuracy influenced by question types, setups, and prompt clues. Updated models exhibit higher acceptance rates for cant queries. Moreover, LLM reactions differ across domains, e.g., reluctance to engage in racism versus LGBT topics. These findings underscore LLMs' understanding of cant and reflect training data characteristics and vendor approaches to sensitive topics. Additionally, we assess LLMs' ability to demonstrate reasoning capabilities. Access to our datasets and code is available at https://github.com/cistineup/CantCounter.
- Abstract(参考訳): 悪意ある搾取に対するLLM(Large Language Models)のレジリエンスの確保が最重要である。
しかし、カントやダークジャーゴンの理解は未解明のままである。
本稿では、ドメイン固有のCantデータセットとCantCounter評価フレームワークを紹介し、Fine-Tuning、Co-Tuning、Data-Diffusion、Data-Analysisのステージを利用する。
実験により、ChatGPTを含むLCMは、質問タイプ、設定、インシデントによって異なる認識精度で、フィルタを通過できないことが判明した。
更新されたモデルは、cantクエリの受け入れ率が高い。
さらに、LSMの反応は、例えば、人種差別とLGBTのトピックに関わることへの反感など、ドメインによって異なる。
これらの知見は、LLMのカントに対する理解と、トレーニングデータの特徴と、センシティブなトピックに対するベンダーのアプローチを反映している。
さらに,LLMが推論能力を示す能力も評価した。
データセットとコードへのアクセスは、https://github.com/cistineup/CantCounter.comで確認できます。
関連論文リスト
- Rolling the DICE on Idiomaticity: How LLMs Fail to Grasp Context [12.781022584125925]
我々は、LLMが文脈を効果的に利用して慣用的意味を曖昧にすることができるかどうかをテストするために設計された、新しい対照データセットを構築した。
以上の結果から, LLMは周囲の状況に適応する必要がある場合, 慣用性の解決に失敗することが多いことが判明した。
コードとデータセットを公開しています。
論文 参考訳(メタデータ) (2024-10-21T14:47:37Z) - Connecting the Dots: LLMs can Infer and Verbalize Latent Structure from Disparate Training Data [9.31120925026271]
本研究では, LLMが学習文書に分散した証拠から潜伏情報を推測する, 暗黙の帰納的推論(OOCR)について検討する。
ある実験では、未知の都市と他の既知の都市の間の距離のみからなるコーパスにLSMを微調整する。
OOCRは様々なケースで成功するが、特にLLMが複雑な構造を学ぶ場合、信頼性が低いことも示している。
論文 参考訳(メタデータ) (2024-06-20T17:55:04Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z) - Causal Reasoning and Large Language Models: Opening a New Frontier for Causality [29.433401785920065]
大規模言語モデル(LLM)は、高い確率で因果引数を生成することができる。
LLMは人間のドメインの専門家によって因果解析のセットアップの労力を節約するために使われる。
論文 参考訳(メタデータ) (2023-04-28T19:00:43Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。