Fugu-MT 論文翻訳(概要): Model-diff: A Tool for Comparative Study of Language Models in the Input Space

論文の概要: Model-diff: A Tool for Comparative Study of Language Models in the Input Space

arxiv url: http://arxiv.org/abs/2412.12177v1
Date: Fri, 13 Dec 2024 00:06:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 17:09:38.377801
Title: Model-diff: A Tool for Comparative Study of Language Models in the Input Space
Title（参考訳）: Model-diff:入力空間における言語モデルの比較研究ツール
Authors: Weitang Liu, Yuelei Li, Ying Wai Li, Zihan Wang, Jingbo Shang,
Abstract要約: 本稿では,ブルートフォース列挙が実現不可能な大入力空間を考慮した新しいモデル比較分析手法を提案する。実験により、大規模な入力空間におけるLM間の定量的予測の違いが初めて明らかとなり、モデルプラジャリズムのような応用のためのモデル解析が促進される可能性がある。
参考スコア（独自算出の注目度）: 34.680890752084004
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Comparing two (large) language models (LMs) side-by-side and pinpointing their prediction similarities and differences on the same set of inputs are crucial in many real-world scenarios, e.g., one can test if a licensed model was potentially plagiarized by another. Traditional analysis compares the LMs' outputs on some benchmark datasets, which only cover a limited number of inputs of designed perspectives for the intended applications. The benchmark datasets cannot prepare data to cover the test cases from unforeseen perspectives which can help us understand differences between models unbiasedly. In this paper, we propose a new model comparative analysis setting that considers a large input space where brute-force enumeration would be infeasible. The input space can be simply defined as all token sequences that a LM would produce low perplexity on -- we follow this definition in the paper as it would produce the most human-understandable inputs. We propose a novel framework \our that uses text generation by sampling and deweights the histogram of sampling statistics to estimate prediction differences between two LMs in this input space efficiently and unbiasedly. Our method achieves this by drawing and counting the inputs at each prediction difference value in negative log-likelihood. Experiments reveal for the first time the quantitative prediction differences between LMs in a large input space, potentially facilitating the model analysis for applications such as model plagiarism.
Abstract（参考訳）: 2つの(より大きな)言語モデル(LM)を並べて比較し、それらの予測の類似点と同一の入力セットの違いを特定することは、現実世界の多くのシナリオにおいて重要である。従来の分析では、いくつかのベンチマークデータセット上でのLMの出力を比較しており、意図されたアプリケーションのために設計された視点の限られた数の入力しかカバーしていない。ベンチマークデータセットは、予期せぬ視点からテストケースをカバーするデータを準備できないため、モデル間の差異をバイアスなく理解するのに役立ちます。本稿では,ブルートフォース列挙が実現不可能な大入力空間を考慮した新しいモデル比較分析手法を提案する。入力空間は単に、LMが低いパープレキシティを発生させる全てのトークンシーケンスとして定義することができる。本稿では,この入力空間における2つのLM間の予測差を効率よく,非バイアス的に推定するために,サンプリング統計のヒストグラムをデウェイトしてテキスト生成を利用する新しいフレームワーク \ourを提案する。本手法は, 負の対数類似度における各予測差値の入力を描画し, 計数することでこれを実現できる。実験により、大規模な入力空間におけるLM間の定量的予測の違いが初めて明らかとなり、モデルプラジャリズムのような応用のためのモデル解析が促進される可能性がある。

関連論文リスト

An Attempt to Unraveling Token Prediction Refinement and Identifying Essential Layers of Large Language Models [0.0]
本研究の目的は,大規模言語モデル (LLM) がいかに反復的にトークン予測を洗練するかを明らかにすることである。我々は、LLMが入力コンテキストから情報にアクセスして利用する方法と、関連する情報の配置がモデルのトークン予測改善プロセスにどのように影響するかに焦点を当てた。
論文参考訳（メタデータ） (2025-01-25T03:34:15Z)
Fact Recall, Heuristics or Pure Guesswork? Precise Interpretations of Language Models for Fact Completion [9.383571944693188]
本研究では,LMが異なる振る舞いを示すことを期待できる4つの異なる予測シナリオについて検討する。本稿では,各シナリオを例に,データセット構築のためのPrISMというモデル固有のレシピを提案する。それぞれのシナリオに対してCTは異なる結果を生成するが、混合例の集合上の集約は、最強の計測信号によるシナリオの結果のみを表すことができる。
論文参考訳（メタデータ） (2024-10-18T12:08:07Z)
CONTESTS: a Framework for Consistency Testing of Span Probabilities in Language Models [16.436592723426305]
単語スパンに関節確率を割り当てる異なる方法で、言語モデルが同じ値を生成するかどうかは不明である。我々の研究はConTestSという新しいフレームワークを導入し、交換可能な完了順序と条件付き順序でスコアの整合性を評価する統計的テストを含む。
論文参考訳（メタデータ） (2024-09-30T06:24:43Z)
Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文参考訳（メタデータ） (2024-09-23T07:55:35Z)
Estimation of embedding vectors in high dimensions [9.660058937140734]
我々は、いくつかの「真」だが未知の埋め込みが存在する離散データに対する単純な確率モデルを考える。このモデルでは、埋め込みは低ランク近似メッセージパッシング(AMP)法の変種によって学習できることが示されている。提案手法は, 合成データと実テキストデータの両方のシミュレーションにより検証した。
論文参考訳（メタデータ） (2023-12-12T23:41:59Z)
Evaluation of human-model prediction difference on the Internet Scale of Data [32.7296837724399]
データセットのモデルを評価することは、予期せぬ多様な入力に直面すると、その振る舞いを捉えるのに失敗することが多い。入力空間のPRによってNNを評価し比較する新しい手法であるOmniInputを提案する。
論文参考訳（メタデータ） (2023-12-06T04:53:12Z)
RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文参考訳（メタデータ） (2023-10-16T16:42:01Z)
Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-29T09:41:19Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。標準共形予測は厳密で統計的に保証された予測セットを生成する。我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文参考訳（メタデータ） (2023-06-16T21:55:08Z)
Interpretable Differencing of Machine Learning Models [20.99877540751412]
2つのMLモデルの出力の相似性関数の予測の1つとしてモデル差分問題の定式化を行う。ジョイントサロゲートツリー(JST)は、この2つのモデルのための2つの連結された決定木サロゲートから構成される。 JSTは違いを直感的に表現し、モデル決定ロジックのコンテキストに変化を配置します。
論文参考訳（メタデータ） (2023-06-10T16:15:55Z)
MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文参考訳（メタデータ） (2022-12-30T07:37:40Z)
On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。異なる家族間でのモデルランキングの相関はみられない。
論文参考訳（メタデータ） (2020-02-17T20:13:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。