論文の概要: Cannot or Should Not? Automatic Analysis of Refusal Composition in IFT/RLHF Datasets and Refusal Behavior of Black-Box LLMs
- arxiv url: http://arxiv.org/abs/2412.16974v1
- Date: Sun, 22 Dec 2024 11:16:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:01:02.634939
- Title: Cannot or Should Not? Automatic Analysis of Refusal Composition in IFT/RLHF Datasets and Refusal Behavior of Black-Box LLMs
- Title(参考訳): IFT/RLHFデータセットにおける拒絶成分の自動解析とブラックボックスLCMの拒絶挙動
- Authors: Alexander von Recum, Christoph Schnabl, Gabor Hollbeck, Silas Alberti, Philip Blinde, Marvin von Hagen,
- Abstract要約: 拒絶(Refusals)とは、大きな言語モデル(LLM)が減少またはユーザ命令の実行に失敗するインスタンスである。
既存の拒絶評価データセットは不十分である。
LLMの拒絶を分類するための包括的枠組みを提案する。
- 参考スコア(独自算出の注目度): 37.69303106863453
- License:
- Abstract: Refusals - instances where large language models (LLMs) decline or fail to fully execute user instructions - are crucial for both AI safety and AI capabilities and the reduction of hallucinations in particular. These behaviors are learned during post-training, especially in instruction fine-tuning (IFT) and reinforcement learning from human feedback (RLHF). However, existing taxonomies and evaluation datasets for refusals are inadequate, often focusing solely on should-not-related (instead of cannot-related) categories, and lacking tools for auditing refusal content in black-box LLM outputs. We present a comprehensive framework for classifying LLM refusals: (a) a taxonomy of 16 refusal categories, (b) a human-annotated dataset of over 8,600 instances from publicly available IFT and RLHF datasets, (c) a synthetic dataset with 8,000 examples for each refusal category, and (d) classifiers trained for refusal classification. Our work enables precise auditing of refusal behaviors in black-box LLMs and automatic analyses of refusal patterns in large IFT and RLHF datasets. This facilitates the strategic adjustment of LLM refusals, contributing to the development of more safe and reliable LLMs.
- Abstract(参考訳): 大規模な言語モデル(LLM)が減少または完全なユーザ命令の実行に失敗するインスタンスであるRefusalsは、AIの安全性とAI機能、特に幻覚の低減に不可欠である。
これらの行動は、特にインストラクション微調整(IFT)や人間からのフィードバック(RLHF)から強化学習において学習される。
しかしながら、既存の分類学および拒絶評価データセットは不十分であり、しばしば(無関係な)カテゴリーにのみ焦点をあて、ブラックボックスLSM出力における拒絶内容を監査するツールが欠如している。
LLMの拒絶を分類するための包括的枠組みを提案する。
(a)拒絶カテゴリー16の分類
b) 公開可能なIFTおよびRLHFデータセットから8,600以上のインスタンスの人間アノテーション付きデータセット。
(c)各拒絶カテゴリーについて8000例の合成データセット、及び
(d)拒絶分類のための訓練された分類器。
本研究は,大規模なIFTデータセットとRLHFデータセットにおける拒絶パターンの自動解析とブラックボックスLLMにおける拒絶動作の正確な監査を可能にする。
これによりLLM拒絶の戦略的調整が容易になり、より安全で信頼性の高いLCMの開発に寄与する。
関連論文リスト
- Are LLMs Good Zero-Shot Fallacy Classifiers? [24.3005882003251]
ゼロショット誤字分類にLarge Language Models(LLM)を活用することに注力する。
ベンチマークデータセットに関する総合的な実験により、LLMはゼロショット誤り分類器となる可能性が示唆された。
我々の新しいマルチラウンドプロンプト方式は、特に小型LLMにおいて、効果的にさらなる改善をもたらすことができる。
論文 参考訳(メタデータ) (2024-10-19T09:38:55Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Unc-TTP: A Method for Classifying LLM Uncertainty to Improve In-Context Example Selection [6.813733517894384]
大規模言語モデル(LLM)は、様々な下流タスクで例外的なパフォーマンスを示している。
ユーザにとって、応答が確実に生成されるか、あるいはユーザの期待に応えて作られているかを判断することは困難である。
本稿では,LLMの不確かさを分類するために,新しい不確実性三部テストパラダイム (Uncertainty Tripartite Testing Paradigm: Unc-TTP) を提案する。
論文 参考訳(メタデータ) (2024-08-17T11:33:23Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Can't say cant? Measuring and Reasoning of Dark Jargons in Large Language Models [10.666290735480821]
本稿ではドメイン固有のCantデータセットとCantCounter評価フレームワークを紹介する。
実験の結果、LLMはフィルタを通過できないことが判明した。
更新されたモデルは、cantクエリの受け入れ率が高い。
論文 参考訳(メタデータ) (2024-04-25T17:25:53Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。