論文の概要: Artificial Interrogation for Attributing Language Models
- arxiv url: http://arxiv.org/abs/2211.10877v1
- Date: Sun, 20 Nov 2022 05:46:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 17:06:35.194357
- Title: Artificial Interrogation for Attributing Language Models
- Title(参考訳): 言語モデル帰属のための人工質問
- Authors: Farhan Dhanani, Muhammad Rafi
- Abstract要約: この課題は、人気言語モデルの12のオープンソースベースバージョンと、テキスト生成のための12の微調整言語モデルを提供する。
コンテストの目標は、どのモデルがどのベースモデルに由来するかを特定することである。
両集合のモデルから生成された応答の類似性を測定するために4つの異なるアプローチを採用した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents solutions to the Machine Learning Model Attribution
challenge (MLMAC) collectively organized by MITRE, Microsoft, Schmidt-Futures,
Robust-Intelligence, Lincoln-Network, and Huggingface community. The challenge
provides twelve open-sourced base versions of popular language models developed
by well-known organizations and twelve fine-tuned language models for text
generation. The names and architecture details of fine-tuned models were kept
hidden, and participants can access these models only through the rest APIs
developed by the organizers. Given these constraints, the goal of the contest
is to identify which fine-tuned models originated from which base model. To
solve this challenge, we have assumed that fine-tuned models and their
corresponding base versions must share a similar vocabulary set with a matching
syntactical writing style that resonates in their generated outputs. Our
strategy is to develop a set of queries to interrogate base and fine-tuned
models. And then perform one-to-many pairing between them based on similarities
in their generated responses, where more than one fine-tuned model can pair
with a base model but not vice-versa. We have employed four distinct approaches
for measuring the resemblance between the responses generated from the models
of both sets. The first approach uses evaluation metrics of the machine
translation, and the second uses a vector space model. The third approach uses
state-of-the-art multi-class text classification, Transformer models. Lastly,
the fourth approach uses a set of Transformer based binary text classifiers,
one for each provided base model, to perform multi-class text classification in
a one-vs-all fashion. This paper reports implementation details, comparison,
and experimental studies, of these approaches along with the final obtained
results.
- Abstract(参考訳): 本稿では,MITRE,Microsoft,Schmidt-Futures,Robust-Intelligence,Lincoln-Network,HuggingfaceコミュニティによってまとめられたMLMAC(Machine Learning Model Attribution Challenge)のソリューションを提案する。
このチャレンジは、有名な組織によって開発されたポピュラー言語モデルの12のオープンソースベースバージョンと、テキスト生成のための12の微調整言語モデルを提供する。
微調整されたモデルの名前とアーキテクチャの詳細は隠され、参加者は主催者が開発したrest apiを通じてのみこれらのモデルにアクセスできる。
これらの制約から、コンテストの目標は、どの細調整されたモデルがベースモデルに由来するかを特定することである。
この課題を解決するために、微調整されたモデルとその対応するベースバージョンは、生成された出力で共振する構文的文体と一致する語彙セットを共有する必要があると仮定した。
我々の戦略は、ベースと微調整されたモデルを問う一連のクエリを開発することである。
そして、生成した応答の類似性に基づいて1対1のペアリングを行い、複数の微調整されたモデルがベースモデルとペアリングできるが、逆はできない。
両集合のモデルから生成された応答の類似性を測定するために4つの異なるアプローチを採用した。
第一のアプローチは機械翻訳の評価基準を使い、第二のアプローチはベクトル空間モデルを使用する。
第3のアプローチは、最先端のマルチクラステキスト分類、Transformerモデルを使用する。
最後に、第4のアプローチはトランスフォーマティブベースのバイナリテキスト分類器のセットを使用して、提供されたベースモデルごとに1つずつ、1対1の方法でマルチクラステキスト分類を行う。
本稿では,これらの手法の実装の詳細,比較,実験と最終結果について報告する。
関連論文リスト
- Merging Text Transformer Models from Different Initializations [7.768975909119287]
異なるTransformer minimaが類似した特徴を学習する程度について検討する。
損失景観におけるこれらのミニマの関係を調べるためのモデルマージ手法を提案する。
以上の結果から,これらのモデルのミニマは従来理解されていたよりもシャープで孤立していないことが明らかとなった。
論文 参考訳(メタデータ) (2024-03-01T21:16:29Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - What is the best recipe for character-level encoder-only modelling? [2.792030485253753]
本稿では,文字レベルで文脈化された表現を出力する言語理解モデルの最近の進歩をベンチマークすることを目的とする。
我々は,同一データ上で同じ設定でトレーニングされたトークンベースのモデルの性能より,最も優れたキャラクタレベルのモデルの方が優れていることを発見した。
本稿は,多言語表現のための文字レベルモデルの即興性を実証し,NLP実践者がトークンベースモデルのドロップイン代替として試すことを推奨するものである。
論文 参考訳(メタデータ) (2023-05-09T14:00:15Z) - Machine Learning Model Attribution Challenge [2.6532805035238747]
微調整された機械学習モデルは、明らかな帰属特性のない他の訓練されたモデルに由来する可能性がある。
この課題において、参加者は匿名で微調整された大きな言語モデルの集合を成す公開ベースモデルを特定する。
論文 参考訳(メタデータ) (2023-02-13T22:05:27Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Language Model Cascades [72.18809575261498]
テスト時に1つのモデルで繰り返し対話する、あるいは複数のモデルの合成は、さらに機能を拡張する。
制御フローと動的構造を持つ場合、確率的プログラミングのテクニックが必要となる。
この観点から、スクラッチパッド/思考連鎖、検証器、STaR、選択推論、ツール利用など、いくつかの既存のテクニックを定式化します。
論文 参考訳(メタデータ) (2022-07-21T07:35:18Z) - DIRECTOR: Generator-Classifiers For Supervised Language Modeling [27.86870968048833]
現在の言語モデルは難易度は低いが、結果として生じる世代は依然として有毒な反応、反復性、矛盾に悩まされている。
我々は,各出力トークンに対して,言語モデリングと分類ヘッドを併用した統一型ジェネレータからなる新しいアーキテクチャであるc Directorを導入する。
論文 参考訳(メタデータ) (2022-06-15T17:44:08Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - Introducing various Semantic Models for Amharic: Experimentation and
Evaluation with multiple Tasks and Datasets [19.855120632909124]
我々はAmharicの異なるセマンティックモデルを導入する。
モデルは word2Vec 埋め込み、分散シソーラス (DT)、コンテキスト埋め込み、DT 埋め込みを使って構築される。
新たに訓練されたモデルは、事前訓練された多言語モデルよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2020-11-02T17:48:25Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。