論文の概要: Fingerprinting Fine-tuned Language Models in the Wild
- arxiv url: http://arxiv.org/abs/2106.01703v1
- Date: Thu, 3 Jun 2021 09:07:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 12:27:47.859827
- Title: Fingerprinting Fine-tuned Language Models in the Wild
- Title(参考訳): 野生におけるフィンガープリンティング細調整言語モデル
- Authors: Nirav Diwan, Tanmoy Chakravorty, Zubair Shafiq
- Abstract要約: 本研究では,野生における微調整型LMの大規模指紋認証の問題点について検討する。
その結果, 微調整自体が, 微調整による合成テキストの生成に最も有効であることが示唆された。
- 参考スコア(独自算出の注目度): 6.7034293304862755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are concerns that the ability of language models (LMs) to generate high
quality synthetic text can be misused to launch spam, disinformation, or
propaganda. Therefore, the research community is actively working on developing
approaches to detect whether a given text is organic or synthetic. While this
is a useful first step, it is important to be able to further fingerprint the
author LM to attribute its origin. Prior work on fingerprinting LMs is limited
to attributing synthetic text generated by a handful (usually < 10) of
pre-trained LMs. However, LMs such as GPT2 are commonly fine-tuned in a myriad
of ways (e.g., on a domain-specific text corpus) before being used to generate
synthetic text. It is challenging to fingerprinting fine-tuned LMs because the
universe of fine-tuned LMs is much larger in realistic scenarios. To address
this challenge, we study the problem of large-scale fingerprinting of
fine-tuned LMs in the wild. Using a real-world dataset of synthetic text
generated by 108 different fine-tuned LMs, we conduct comprehensive experiments
to demonstrate the limitations of existing fingerprinting approaches. Our
results show that fine-tuning itself is the most effective in attributing the
synthetic text generated by fine-tuned LMs.
- Abstract(参考訳): 高品質な合成テキストを生成する言語モデル(LM)の能力がスパム、偽情報、プロパガンダの起動に誤用されることが懸念されている。
そのため、研究コミュニティは、与えられたテキストが有機的か合成的かを検出するアプローチの開発を積極的に進めている。
これは第1ステップとして有用であるが、著者lmの原点を識別するためにさらに指紋を付けることが重要である。
フィンガープリント LM の以前の研究は、事前訓練された LM のごく一部 (通常 < 10 ) で生成される合成テキストに限られていた。
しかし、GPT2のようなLMは通常、合成テキストを生成するために使われる前に、無数の方法で微調整される(例えば、ドメイン固有のテキストコーパス)。
細調整されたLMの宇宙は現実的なシナリオでははるかに大きいため、細調整されたLMのフィンガープリントは困難である。
この課題に対処するため,本研究では野生の微調整lmsの大規模フィンガープリントについて検討する。
108種類の微調整lmsで生成された合成テキストの実世界データセットを用いて,既存のフィンガープリント手法の限界を包括的に実証する実験を行った。
その結果,微調整自体が微調整による合成テキストの生成に最も有効であることが示唆された。
関連論文リスト
- Robustness of LLMs to Perturbations in Text [2.0670689746336]
大規模言語モデル(LLM)は素晴らしいパフォーマンスを示していますが、現実のデータでは避けられないノイズを処理できますか?
この研究は、LLMのテキストのモルフォロジー変化に対するレジリエンスを調査することによって、この重要な問題に取り組む。
以上の結果から, LLM は, 一般の信念とは対照的に, 文中での騒々しい摂動に対して静かであることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-12T04:50:17Z) - Differentially Private Synthetic Data via Foundation Model APIs 2: Text [56.13240830670327]
現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。
テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:57:50Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Bridging Synthetic and Real Worlds for Pre-training Scene Text Detectors [54.80516786370663]
FreeRealは、SDと実際のデータの相補的な強みを可能にする、実際のドメイン整合型事前トレーニングパラダイムである。
GlyphMixは、合成画像を落書きのようなユニットとして実際の画像に埋め込む。
FreeRealは、4つの公開データセットで、既存の事前トレーニングメソッドよりも大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2023-12-08T15:10:55Z) - AuthentiGPT: Detecting Machine-Generated Text via Black-Box Language
Models Denoising [4.924903495092775]
大きな言語モデル(LLM)は、人間の文章を忠実に模倣するテキストを作成し、潜在的に誤用につながる可能性がある。
本稿では,機械生成テキストと人文テキストを区別する効率的な分類器であるAuthentiGPTを提案する。
ドメイン固有のデータセットの0.918 AUROCスコアで、AuthentiGPTは、他の商用アルゴリズムよりも有効であることを示した。
論文 参考訳(メタデータ) (2023-11-13T19:36:54Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Synthetic Pre-Training Tasks for Neural Machine Translation [16.6378815054841]
我々のゴールは、合成資源を使用する場合の事前学習モデルの有効性に寄与する要因を理解することである。
本稿では,語彙的および構造的知識のレベルが異なる事前学習型翻訳モデルを提案する。
複数の言語ペアに対する実験により,高レベルの難読化や純粋に合成された並列データであっても,事前学習のメリットが実現できることが明らかになった。
論文 参考訳(メタデータ) (2022-12-19T21:34:00Z) - Contrastive Decoding: Open-ended Text Generation as Optimization [153.35961722855686]
信頼性の高い復号法であるコントラスト復号法(CD)を提案する。
これは、より大きなLMの故障がより小さなLMでさらに多いという事実に着想を得たものである。
CDは追加のトレーニングを一切必要とせず、より大きなLMからの復号化よりも高品質なテキストを生成する。
論文 参考訳(メタデータ) (2022-10-27T00:58:21Z) - Factuality Enhanced Language Models for Open-Ended Text Generation [60.27166549575472]
我々は、LM世代の実測のためのFactalityPromptsテストセットとメトリクスを設計する。
より大きなLMはより小さなものよりも現実的であることが分かるが、以前の研究では、大きなLMは誤解の観点からは真実性が低いことを示唆している。
そこで本稿では,TopicPrefixを用いた事実認識と文完成のための実感強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-09T17:16:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。