論文の概要: Reducing the Scope of Language Models with Circuit Breakers
- arxiv url: http://arxiv.org/abs/2410.21597v1
- Date: Mon, 28 Oct 2024 23:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:43:00.980528
- Title: Reducing the Scope of Language Models with Circuit Breakers
- Title(参考訳): サーキットブレーカを用いた言語モデルのスコープ削減
- Authors: David Yunis, Siyu Huo, Chulaka Gunasekara, Danish Contractor,
- Abstract要約: 2つの代表的な言語モデルはスコープが低く、対処すべきでないクエリに応答できることを示します。
本稿では,最近提案された一般的なアライメント手法であるCircuit Breakersが,言語モデルに非常に具体的なタスクに適応可能であることを示す。
- 参考スコア(独自算出の注目度): 7.464494269745494
- License:
- Abstract: Language models are now deployed in a wide variety of user-facing applications, often for specific purposes like answering questions about documentation or acting as coding assistants. As these models are intended for particular purposes, they should not be able to answer irrelevant queries like requests for poetry or questions about physics, or even worse, queries that can only be answered by humans like sensitive company policies. Instead we would like them to only answer queries corresponding to desired behavior and refuse all other requests, which we refer to as scoping. We find that, despite the use of system prompts, two representative language models can be poorly scoped and respond to queries they should not be addressing. We then conduct a comprehensive empirical evaluation of methods which could be used for scoping the behavior of language models. Among many other results, we show that a recently-proposed method for general alignment, Circuit Breakers (CB), can be adapted to scope language models to very specific tasks like sentiment analysis or summarization or even tasks with finer-grained scoping (e.g. summarizing only news articles). When compared to standard methods like fine-tuning or preference learning, CB is more robust both for out of distribution tasks, and to adversarial prompting techniques. We also show that layering SFT and CB together often results in the best of both worlds: improved performance only on relevant queries, while rejecting irrelevant ones.
- Abstract(参考訳): 言語モデルは、ドキュメントに関する質問に答えたり、コーディングアシスタントとして振る舞うなど、特定の目的のために、さまざまなユーザ向けアプリケーションにデプロイされている。
これらのモデルは、特定の目的のために意図されているため、詩や物理学に関する質問といった無関係なクエリに答えることはできない。
代わりに、望ましい振る舞いに対応するクエリにのみ答えて、他のすべてのリクエストを拒否したいと考えています。
システムプロンプトの使用にもかかわらず、2つの代表的な言語モデルはスコープが低く、対処すべきでないクエリに応答できる。
次に、言語モデルの振る舞いをスコーピングするのに使用できる手法の総合的な実証評価を行う。
その結果,近年提案されている一般的なアライメント手法であるCircuit Breakers (CB) が,感情分析や要約,さらにはよりきめ細かなスコーピング(ニュース記事のみの要約など)のタスクに対して,言語モデルに適応できることが示唆された。
微調整や選好学習のような標準的な手法と比較して、CBは分散タスクのアウト・オブ・プレイス・タスクと対向的プロンプト技術の両方においてより堅牢である。
また, SFT と CB の階層化は, 関連クエリのみの性能向上と,無関係なクエリの拒否という両世界の最高の結果をもたらすことも示している。
関連論文リスト
- Contextualized Evaluations: Taking the Guesswork Out of Language Model Evaluations [85.81295563405433]
言語モデルユーザーは、しばしば仕様を欠いたクエリを発行するが、クエリが発行されたコンテキストは明示的ではない。
提案手法は,不特定クエリを取り巻くコンテキストを合成的に構築し,評価中に提供するプロトコルである。
その結果,1) モデルペア間の勝利率の反転,2) モデルペア間の勝利率の低下,2) パターンなどの表面レベル基準に基づく判断の少ない評価,3) 様々な文脈におけるモデル行動に関する新たな洞察の提供,といった結果が得られた。
論文 参考訳(メタデータ) (2024-11-11T18:58:38Z) - The Art of Saying No: Contextual Noncompliance in Language Models [123.383993700586]
本稿では,ユーザの要求に従わないモデルについて,コンテキスト非準拠の包括的分類を導入する。
我々の分類は、不完全、不完全、不完全、不決定、人為的要求を含む幅広いカテゴリーにまたがる。
言語モデルの非準拠性をテストするために,1000個の非準拠プロンプトの新たな評価スイートを開発するために,この分類法を用いる。
論文 参考訳(メタデータ) (2024-07-02T07:12:51Z) - From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries [6.382667978271587]
Retrieval Augmented Generation (RAG) は、あるユーザプロンプトに対する応答を増やすために、外部コンテキストを使って言語モデルを推論する能力を強化する。
このアプローチは、検索、質問/回答、チャットボットにおける言語モデルの様々な応用における実践的な応用により、人気が高まっている。
本稿では,RAGパイプラインを機械的に検討し,言語モデルがショートカットをとっており,パラメトリックメモリを最小限に頼りながら,文脈情報のみを活用することに強いバイアスを持つことを示す。
論文 参考訳(メタデータ) (2024-06-18T17:46:08Z) - Eliciting Human Preferences with Language Models [56.68637202313052]
言語モデル(LM)は、ラベル付き例や自然言語のプロンプトを使用してターゲットタスクを実行するように指示することができる。
タスク仕様プロセスのガイドには*LM自身を使うことを提案します。
我々は、メール検証、コンテンツレコメンデーション、道徳的推論の3つの領域でGATEを研究している。
論文 参考訳(メタデータ) (2023-10-17T21:11:21Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Answering Ambiguous Questions via Iterative Prompting [84.3426020642704]
オープンドメインの質問応答では、質問のあいまいさのため、複数の妥当な回答が存在する可能性がある。
ひとつのアプローチは、すべての有効な回答を直接予測することですが、これは、妥当性と多様性のバランスに苦労する可能性があります。
本稿では,あいまいな疑問に答える既存手法の欠陥に対処するため,AmbigPromptを提案する。
論文 参考訳(メタデータ) (2023-07-08T04:32:17Z) - Regularized Contrastive Learning of Semantic Search [0.0]
トランスフォーマーベースのモデルは、セマンティック表現を学習する能力に優れたため、検索モデルとして広く利用されている。
本稿では,正規化コントラスト学習という新たな正規化手法を提案する。
文ごとに異なるセマンティック表現を増補し、レギュレータとして対照的な目的に含める。
論文 参考訳(メタデータ) (2022-09-27T08:25:19Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。