論文の概要: Shh, don't say that! Domain Certification in LLMs
- arxiv url: http://arxiv.org/abs/2502.19320v1
- Date: Wed, 26 Feb 2025 17:13:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 15:00:03.059569
- Title: Shh, don't say that! Domain Certification in LLMs
- Title(参考訳): ああ、そんなこと言わないで! LLMのドメイン認定
- Authors: Cornelius Emde, Alasdair Paren, Preetham Arvind, Maxime Kayser, Tom Rainforth, Thomas Lukasiewicz, Bernard Ghanem, Philip H. S. Torr, Adel Bibi,
- Abstract要約: 大きな言語モデル(LLM)は狭いドメインで制約されたタスクを実行するためにしばしばデプロイされる。
ドメイン認証は、言語モデルのドメイン外動作を正確に特徴付ける保証である。
次に, 逆境界を証明として提供するVALIDを, 単純かつ効果的なアプローチとして提案する。
- 参考スコア(独自算出の注目度): 124.61851324874627
- License:
- Abstract: Large language models (LLMs) are often deployed to perform constrained tasks, with narrow domains. For example, customer support bots can be built on top of LLMs, relying on their broad language understanding and capabilities to enhance performance. However, these LLMs are adversarially susceptible, potentially generating outputs outside the intended domain. To formalize, assess, and mitigate this risk, we introduce domain certification; a guarantee that accurately characterizes the out-of-domain behavior of language models. We then propose a simple yet effective approach, which we call VALID that provides adversarial bounds as a certificate. Finally, we evaluate our method across a diverse set of datasets, demonstrating that it yields meaningful certificates, which bound the probability of out-of-domain samples tightly with minimum penalty to refusal behavior.
- Abstract(参考訳): 大きな言語モデル(LLM)は狭いドメインで制約されたタスクを実行するためにしばしばデプロイされる。
例えば、顧客サポートボットはLLMの上に構築することができ、その広範な言語理解とパフォーマンス向上能力に依存している。
しかし、これらのLSMは逆に感受性があり、意図した領域の外で出力を生成する可能性がある。
このリスクを形式化し、評価し、軽減するために、言語モデルのドメイン外動作を正確に特徴づける保証であるドメイン認証を導入します。
次に, 逆境界を証明として提供するVALIDを, 単純かつ効果的なアプローチとして提案する。
最後に,本手法を多種多様なデータセットにわたって評価し,ドメイン外サンプルの確率を最小限のペナルティで制限し,動作を拒否する有意義な証明が得られることを示した。
関連論文リスト
- Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - BANER: Boundary-Aware LLMs for Few-Shot Named Entity Recognition [12.57768435856206]
本稿では,Few-Shot Named Entity Recognition のための境界認識 LLM という手法を提案する。
一般化されたエンティティスパンに対するエンティティ境界を知覚するLLMの能力を高めるために,境界対応のコントラスト学習戦略を導入する。
ターゲットドメインからソースドメインに情報をアライメントするためにLoRAHubを使用し、適応型クロスドメイン分類機能を強化する。
論文 参考訳(メタデータ) (2024-12-03T07:51:14Z) - Can adversarial attacks by large language models be attributed? [1.3812010983144802]
敵の設定における大規模言語モデルからのアウトプットの寄与は、重要度が増大する可能性が高い重要な課題を示す。
正規言語理論,特にゴールドが導入しアングルインが拡張した限界における言語識別を用いて,この帰属問題について検討する。
以上の結果から,特定の言語クラスの識別不可能性から,特定のLLMに出力を確実に属性付けることは理論的には不可能であることが示唆された。
論文 参考訳(メタデータ) (2024-11-12T18:28:57Z) - SVIP: Towards Verifiable Inference of Open-source Large Language Models [33.910670775972335]
オープンソースのLarge Language Models (LLMs)は、最近、自然言語の理解と生成において顕著な能力を示し、様々な領域で広く採用されている。
モデルのサイズが大きくなることで、個々のユーザにとってローカルデプロイメントは現実的ではなく、ブラックボックスAPIを通じて推論を行うコンピューティングサービスプロバイダに頼らざるを得なくなる。
この依存は新たなリスクをもたらす: コンピューティングプロバイダは、要求されたLLMをユーザからの同意なく、より小さく、能力の低いモデルにステルス的に置き換えて、コスト削減の恩恵を受けながら、劣ったアウトプットを配信する。
論文 参考訳(メタデータ) (2024-10-29T17:52:45Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Cross-Domain Policy Adaptation by Capturing Representation Mismatch [53.087413751430255]
強化学習(RL)において、動的に異なる領域に移行できる効果的な政策を学ぶことが不可欠である。
本稿では、ソースドメインとターゲットドメインとの間に動的ミスマッチが存在する場合の動的適応設定について考察する。
対象領域でのみ表現学習を行い、ソース領域からの遷移における表現偏差を測定する。
論文 参考訳(メタデータ) (2024-05-24T09:06:12Z) - VarMAE: Pre-training of Variational Masked Autoencoder for
Domain-adaptive Language Understanding [5.1282202633907]
本稿では,ドメイン適応型言語理解のためのトランスフォーマーベース言語モデルであるVarMAEを提案する。
マスク付き自動符号化の目的のもと,トークンのコンテキストをスムーズな潜伏分布に符号化するコンテキスト不確実性学習モジュールを設計する。
科学および金融分野におけるNLUタスクの実験は、VarMAEが限られたリソースを持つ新しいドメインに効率的に適応できることを実証している。
論文 参考訳(メタデータ) (2022-11-01T12:51:51Z) - KALA: Knowledge-Augmented Language Model Adaptation [65.92457495576141]
プレトレーニング言語モデル(PLM)のための新しいドメイン適応フレームワークを提案する。
知識拡張言語モデル適応(英: Knowledge-Augmented Language Model Adaptation, KALA)は、PLMの中間的隠れ表現をドメイン知識で修飾する。
計算効率は高いが,我々のKALAは適応型事前学習よりも優れていた。
論文 参考訳(メタデータ) (2022-04-22T08:11:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。