論文の概要: Increasing Trust in Language Models through the Reuse of Verified Circuits
- arxiv url: http://arxiv.org/abs/2402.02619v6
- Date: Mon, 10 Jun 2024 01:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 03:49:29.574553
- Title: Increasing Trust in Language Models through the Reuse of Verified Circuits
- Title(参考訳): 検証回路の再利用による言語モデルの信頼度向上
- Authors: Philip Quirke, Clement Neo, Fazl Barez,
- Abstract要約: 言語モデル(LM)は、幅広い予測タスクにますます使われていますが、それらのトレーニングは稀なエッジケースを無視します。
数学的および論理的に規定されたフレームワークを使用して構築すれば,トランスフォーマーモデルをこの標準を満たすように訓練できることが示される。
両タスクの加算回路を広範囲に再利用し,より複雑な減算器モデルの検証を容易にする。
- 参考スコア(独自算出の注目度): 1.8434042562191815
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Language Models (LMs) are increasingly used for a wide range of prediction tasks, but their training can often neglect rare edge cases, reducing their reliability. Here, we define a stringent standard of trustworthiness whereby the task algorithm and circuit implementation must be verified, accounting for edge cases, with no known failure modes. We show that a transformer model can be trained to meet this standard if built using mathematically and logically specified frameworks. In this paper, we fully verify a model for n-digit integer addition. To exhibit the reusability of verified modules, we insert the trained integer addition model into an untrained model and train the combined model to perform both addition and subtraction. We find extensive reuse of the addition circuits for both tasks, easing verification of the more complex subtractor model. We discuss how inserting verified task modules into LMs can leverage model reuse to improve verifiability and trustworthiness of language models built using them. The reuse of verified circuits reduces the effort to verify more complex composite models which we believe to be a significant step towards safety of language models.
- Abstract(参考訳): 言語モデル(LM)は、幅広い予測タスクにますます使われていますが、それらのトレーニングは稀なエッジケースを無視し、信頼性を低下させます。
ここでは、タスクアルゴリズムと回路実装を検証し、エッジケースを考慮し、既知の障害モードを含まない、厳格な信頼性基準を定義する。
数学的および論理的に規定されたフレームワークを使用して構築すれば,トランスフォーマーモデルをこの標準を満たすように訓練できることが示される。
本稿では,n桁整数加算モデルを完全に検証する。
検証されたモジュールの再利用性を示すため、トレーニングされた整数加算モデルをトレーニングされていないモデルに挿入し、組み合わせたモデルで加算と減算の両方を行うように訓練する。
両タスクの加算回路を広範囲に再利用し,より複雑な減算器モデルの検証を容易にする。
本稿では,検証済みのタスクモジュールをLMに挿入することで,モデルの再利用を有効活用し,それらを用いた言語モデルの妥当性と信頼性を向上させる方法について論じる。
検証回路の再利用により、言語モデルの安全性に向けた重要なステップであると考えられる、より複雑な複合モデルを検証する労力が削減される。
関連論文リスト
- Code Pretraining Improves Entity Tracking Abilities of Language Models [20.6768931196215]
大量のコードでトレーニングされたモデルがベースモデルより優れているという明確な証拠が得られます。
一方、様々なモデルファミリをまたいだ算術訓練やアライメントチューニングの相反する利点は見つからない。
論文 参考訳(メタデータ) (2024-05-31T17:56:33Z) - Calibrating Likelihoods towards Consistency in Summarization Models [22.023863165579602]
このような振る舞いの主な理由は、最大極大目標で訓練された要約モデルが、文脈が与えられた有理系列に高い確率を割り当てることである。
本研究では、自然言語推論(NLI)モデルにより測定された一貫性の測定値と整合性を高めるために、モデル生成シーケンスの可能性を校正することで、この問題を解決する。
論文 参考訳(メタデータ) (2023-10-12T23:17:56Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Generalization Analysis on Learning with a Concurrent Verifier [16.298786827265673]
機械学習モデルの学習性はCVでどのように変化するかを分析する。
Rademacherの複雑性に基づく典型的なエラー境界は、元のモデルよりも大きくはならない。
論文 参考訳(メタデータ) (2022-10-11T10:51:55Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - QuantifyML: How Good is my Machine Learning Model? [0.0]
QuantifyMLは、機械学習モデルが与えられたデータから学習し、一般化した範囲を定量化することを目的としている。
この式は市販モデルカウンタを用いて解析し、異なるモデル挙動に関する正確な数を求める。
論文 参考訳(メタデータ) (2021-10-25T01:56:01Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [55.28436972267793]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。