論文の概要: Can't say cant? Measuring and Reasoning of Dark Jargons in Large Language Models
- arxiv url: http://arxiv.org/abs/2405.00718v1
- Date: Thu, 25 Apr 2024 17:25:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-05 17:44:45.352864
- Title: Can't say cant? Measuring and Reasoning of Dark Jargons in Large Language Models
- Title(参考訳): 言い切れない? 大規模言語モデルにおけるダーク・ジャーゴンの測定と推論
- Authors: Xu Ji, Jianyi Zhang, Ziyin Zhou, Zhangchi Zhao, Qianqian Qiao, Kaiying Han, Md Imran Hossen, Xiali Hei,
- Abstract要約: 本稿ではドメイン固有のCantデータセットとCantCounter評価フレームワークを紹介する。
実験の結果、LLMはフィルタを通過できないことが判明した。
更新されたモデルは、cantクエリの受け入れ率が高い。
- 参考スコア(独自算出の注目度): 10.666290735480821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring the resilience of Large Language Models (LLMs) against malicious exploitation is paramount, with recent focus on mitigating offensive responses. Yet, the understanding of cant or dark jargon remains unexplored. This paper introduces a domain-specific Cant dataset and CantCounter evaluation framework, employing Fine-Tuning, Co-Tuning, Data-Diffusion, and Data-Analysis stages. Experiments reveal LLMs, including ChatGPT, are susceptible to cant bypassing filters, with varying recognition accuracy influenced by question types, setups, and prompt clues. Updated models exhibit higher acceptance rates for cant queries. Moreover, LLM reactions differ across domains, e.g., reluctance to engage in racism versus LGBT topics. These findings underscore LLMs' understanding of cant and reflect training data characteristics and vendor approaches to sensitive topics. Additionally, we assess LLMs' ability to demonstrate reasoning capabilities. Access to our datasets and code is available at https://github.com/cistineup/CantCounter.
- Abstract(参考訳): 悪意ある搾取に対するLLM(Large Language Models)のレジリエンスの確保が最重要である。
しかし、カントやダークジャーゴンの理解は未解明のままである。
本稿では、ドメイン固有のCantデータセットとCantCounter評価フレームワークを紹介し、Fine-Tuning、Co-Tuning、Data-Diffusion、Data-Analysisのステージを利用する。
実験により、ChatGPTを含むLCMは、質問タイプ、設定、インシデントによって異なる認識精度で、フィルタを通過できないことが判明した。
更新されたモデルは、cantクエリの受け入れ率が高い。
さらに、LSMの反応は、例えば、人種差別とLGBTのトピックに関わることへの反感など、ドメインによって異なる。
これらの知見は、LLMのカントに対する理解と、トレーニングデータの特徴と、センシティブなトピックに対するベンダーのアプローチを反映している。
さらに,LLMが推論能力を示す能力も評価した。
データセットとコードへのアクセスは、https://github.com/cistineup/CantCounter.comで確認できます。
関連論文リスト
- Can Large Language Models Identify Authorship? [18.378744138365537]
大規模言語モデル(LLM)は、推論と問題解決に非常に優れた能力を示している。
本稿では,著者分析におけるLLMの包括的評価を行う。
論文 参考訳(メタデータ) (2024-03-13T03:22:02Z) - Can LLMs Separate Instructions From Data? And What Do We Even Mean By
That? [70.90792645587449]
命令調整型大規模言語モデル(LLM)はブレークスルーを達成し、多くの実用的なアプリケーションに数え切れないほど新しい可能性を秘めている。
LLMには、命令とデータの分離など、コンピュータ科学の他の領域で確立されている基本的な安全機能がない。
本稿では,命令データ分離の現象を定量化するための公式測度と,その経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - What Evidence Do Language Models Find Convincing? [103.67867531892988]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - Don't Go To Extremes: Revealing the Excessive Sensitivity and
Calibration Limitations of LLMs in Implicit Hate Speech Detection [31.831677567088782]
本稿では,暗黙のヘイトスピーチを検出し,その応答に自信を表現できる大規模言語モデルを提案する。
1) LLMは, 公平性問題を引き起こす可能性のあるグループやトピックに対して過度な感受性を示し, ヘイトスピーチとして良心的発言を誤分類する。
論文 参考訳(メタデータ) (2024-02-18T00:04:40Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。