論文の概要: What's New in My Data? Novelty Exploration via Contrastive Generation
- arxiv url: http://arxiv.org/abs/2410.14765v1
- Date: Fri, 18 Oct 2024 15:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:22:23.932889
- Title: What's New in My Data? Novelty Exploration via Contrastive Generation
- Title(参考訳): 私のデータに新しいものは何か? コントラスト生成による新奇な探索
- Authors: Masaru Isonuma, Ivan Titov,
- Abstract要約: 創成による新規発見の課題(CGE)について紹介する。
CGEは、これらの特性を示す例を生成することによって、微調整データセットの新たな特性を特定することを目的としている。
本実験では,CGEが有害な言語や新しい自然言語,プログラミング言語などの新規なコンテンツの検出に有効であることを実証した。
- 参考スコア(独自算出の注目度): 31.33791825286853
- License:
- Abstract: Fine-tuning is widely used to adapt language models for specific goals, often leveraging real-world data such as patient records, customer-service interactions, or web content in languages not covered in pre-training. These datasets are typically massive, noisy, and often confidential, making their direct inspection challenging. However, understanding them is essential for guiding model deployment and informing decisions about data cleaning or suppressing any harmful behaviors learned during fine-tuning. In this study, we introduce the task of novelty discovery through generation, which aims to identify novel properties of a fine-tuning dataset by generating examples that illustrate these properties. Our approach, Contrastive Generative Exploration (CGE), assumes no direct access to the data but instead relies on a pre-trained model and the same model after fine-tuning. By contrasting the predictions of these two models, CGE can generate examples that highlight novel characteristics of the fine-tuning data. However, this simple approach may produce examples that are too similar to one another, failing to capture the full range of novel phenomena present in the dataset. We address this by introducing an iterative version of CGE, where the previously generated examples are used to update the pre-trained model, and this updated model is then contrasted with the fully fine-tuned model to generate the next example, promoting diversity in the generated outputs. Our experiments demonstrate the effectiveness of CGE in detecting novel content, such as toxic language, as well as new natural and programming languages. Furthermore, we show that CGE remains effective even when models are fine-tuned using differential privacy techniques.
- Abstract(参考訳): ファインチューニングは特定の目標のために言語モデルを適用するために広く使われており、多くの場合、患者記録、カスタマーサービス間インタラクション、あるいは事前トレーニングの対象でない言語でのWebコンテンツといった実世界のデータを活用する。
これらのデータセットは通常、大きく、騒々しく、しばしば機密であり、直接の検査を困難にしている。
しかし、それらを理解することは、データクリーニングに関する決定を導き、微調整中に学んだ有害な振る舞いを抑えるのに不可欠である。
本研究では,これらの特徴を表現した例を生成することによって,微調整データセットの新規特性を識別することを目的とした,生成による新規性発見の課題について紹介する。
我々のアプローチであるContrastive Generative Exploration (CGE)は、データに直接アクセスするのではなく、訓練済みのモデルと微調整後の同じモデルに依存します。
これら2つのモデルの予測とは対照的に、CGEは微調整データの新しい特徴を強調するサンプルを生成することができる。
しかし、この単純なアプローチは、互いに似すぎ、データセットに存在する新しい現象の完全な範囲を捉えていない例を生み出すかもしれない。
本稿では,CGE の反復バージョンを導入し,事前学習モデル更新に先立って生成された例を用いて,この更新モデルを完全微調整モデルと対比し,次の例を生成し,生成した出力の多様性を促進する。
本実験では,CGEが有害な言語や新しい自然言語,プログラミング言語などの新規なコンテンツの検出に有効であることを実証した。
さらに,モデルが差分プライバシー技術を用いて微調整されている場合でも,CGEは有効であることを示す。
関連論文リスト
- Learning Augmentation Policies from A Model Zoo for Time Series Forecasting [58.66211334969299]
本稿では,強化学習に基づく学習可能なデータ拡張手法であるAutoTSAugを紹介する。
限界サンプルを学習可能なポリシーで強化することにより、AutoTSAugは予測性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-09-10T07:34:19Z) - IGANN Sparse: Bridging Sparsity and Interpretability with Non-linear Insight [4.010646933005848]
IGANN Sparseは、一般化された加法モデルのファミリーから生まれた、新しい機械学習モデルである。
トレーニング中の非線形特徴選択プロセスを通じて、スパシティを促進する。
これにより、予測性能を犠牲にすることなく、モデル空間の改善による解釈可能性を保証する。
論文 参考訳(メタデータ) (2024-03-17T22:44:36Z) - Enhancing Visual Perception in Novel Environments via Incremental Data
Augmentation Based on Style Transfer [2.516855334706386]
未知の未知"は、現実のシナリオにおける自律的なエージェントデプロイメントに挑戦する。
提案手法は,変分プロトタイピング(VPE)を利用して,新規入力を積極的に識別し,処理することで視覚知覚を向上させる。
本研究は,ドメイン固有の拡張戦略に生成モデルを組み込むことの潜在的な利点を示唆する。
論文 参考訳(メタデータ) (2023-09-16T03:06:31Z) - Private Gradient Estimation is Useful for Generative Modeling [25.777591229903596]
そこで本研究では,サンプルをハミルトン力学で生成し,よく訓練されたネットワークから推定したプライベートデータセットの勾配を推定する手法を提案する。
我々のモデルは256x256の解像度でデータを生成することができる。
論文 参考訳(メタデータ) (2023-05-18T02:51:17Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Recoding latent sentence representations -- Dynamic gradient-based
activation modification in RNNs [0.0]
RNNでは、サブオプティマティックな方法で情報をエンコーディングすることは、シーケンスの後の要素に基づいて表現の質に影響を与える可能性がある。
勾配に基づく補正機構を用いて,標準RNNへの拡張を提案する。
言語モデリングの文脈で異なる実験を行い、そのようなメカニズムを使うことによる影響を詳細に調べる。
論文 参考訳(メタデータ) (2021-01-03T17:54:17Z) - Learning Consistent Deep Generative Models from Sparse Data via
Prediction Constraints [16.48824312904122]
我々は変分オートエンコーダやその他の深層生成モデルを学ぶための新しいフレームワークを開発する。
これら2つのコントリビューション -- 予測制約と一貫性制約 -- が,画像分類性能の有望な向上につながることを示す。
論文 参考訳(メタデータ) (2020-12-12T04:18:50Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。