Fugu-MT 論文翻訳(概要): Mapping 1,000+ Language Models via the Log-Likelihood Vector

論文の概要: Mapping 1,000+ Language Models via the Log-Likelihood Vector

arxiv url: http://arxiv.org/abs/2502.16173v1
Date: Sat, 22 Feb 2025 10:23:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.020365
Title: Mapping 1,000+ Language Models via the Log-Likelihood Vector
Title（参考訳）: ログ型ベクトルによる1000以上の言語モデルのマッピング
Authors: Momose Oyama, Hiroaki Yamagiwa, Yusuke Takase, Hidetoshi Shimodaira,
Abstract要約: 我々は,事前定義されたテキスト集合上で計算された対数様ベクトルをモデル特徴として用いて,自動回帰言語モデルを大規模に比較する。提案手法はスケーラビリティが高く,計算コストはモデル数とテキストサンプル数の両方で線形に増大する。この手法を1000以上の言語モデルに適用し、大規模モデル解析の新しい視点を提供する「モデルマップ」を構築した。
参考スコア（独自算出の注目度）: 2.5999037208435705
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To compare autoregressive language models at scale, we propose using log-likelihood vectors computed on a predefined text set as model features. This approach has a solid theoretical basis: when treated as model coordinates, their squared Euclidean distance approximates the Kullback-Leibler divergence of text-generation probabilities. Our method is highly scalable, with computational cost growing linearly in both the number of models and text samples, and is easy to implement as the required features are derived from cross-entropy loss. Applying this method to over 1,000 language models, we constructed a "model map," providing a new perspective on large-scale model analysis.
Abstract（参考訳）: 自動回帰言語モデルを大規模に比較するために,事前定義したテキスト集合上で計算された対数様ベクトルをモデル特徴として用いた。モデル座標として扱われるとき、その2乗ユークリッド距離は、テキスト生成確率のクルバック・リーバーの発散を近似する。提案手法はスケーラビリティが高く,計算コストはモデル数とテキストサンプル数の両方で線形に増加しており,必要な特徴がクロスエントロピー損失から導出されるため,実装が容易である。この手法を1000以上の言語モデルに適用し、大規模モデル解析の新しい視点を提供する「モデルマップ」を構築した。

関連論文リスト

Likelihood Variance as Text Importance for Resampling Texts to Map Language Models [2.5999037208435705]
本稿では,各テキストのモデル間でのログ類似度の違いに比例した重み付き重要なテキストを選択する再サンプリング手法を提案する。提案手法は,KL分散推定の精度を保ちながら,必要なテキスト数を大幅に削減する。
論文参考訳（メタデータ） (2025-05-21T12:10:40Z)
Jet Expansions of Residual Computation [25.842534423280185]
本稿では,ジェットを用いた残差計算グラフの拡張フレームワークを提案する。提案手法は,様々な計算経路のコントリビューションを解き散らし,予測をモデル化するための体系的なアプローチを提供する。
論文参考訳（メタデータ） (2024-10-08T13:25:08Z)
Scalable Inference for Bayesian Multinomial Logistic-Normal Dynamic Linear Models [0.5735035463793009]
この記事では、$textitFenrir$と呼ばれる、後続状態推定に対する効率的で正確なアプローチを開発します。我々の実験から、フェンリルはスタンよりも3桁効率が良いことが示唆された。当社のメソッドは,C++で記述されたユーザフレンドリなソフトウェアライブラリとして,Rインターフェースを備えたコミュニティで利用可能です。
論文参考訳（メタデータ） (2024-10-07T23:20:14Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文参考訳（メタデータ） (2022-12-30T07:37:40Z)
An Information-Theoretic Analysis of Compute-Optimal Neural Scaling Laws [24.356906682593532]
大規模ニューラルネットワークにおけるモデルとトレーニングデータセットサイズ間の計算-最適トレードオフについて検討する。以上の結果から, チンチラの実証分析で裏付けられる線形関係が示唆された。
論文参考訳（メタデータ） (2022-12-02T18:46:41Z)
Language Model Cascades [72.18809575261498]
テスト時に1つのモデルで繰り返し対話する、あるいは複数のモデルの合成は、さらに機能を拡張する。制御フローと動的構造を持つ場合、確率的プログラミングのテクニックが必要となる。この観点から、スクラッチパッド/思考連鎖、検証器、STaR、選択推論、ツール利用など、いくつかの既存のテクニックを定式化します。
論文参考訳（メタデータ） (2022-07-21T07:35:18Z)
Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文参考訳（メタデータ） (2022-01-08T00:47:50Z)
Transformer-based Map Matching Model with Limited Ground-Truth Data using Transfer-Learning Approach [6.510061176722248]
多くのトラジェクトリベースのアプリケーションでは、生のGPSトラジェクトリをデジタルマップの道路網にマッピングする必要がある。本稿では,データの観点から地図マッチングの課題を考察し,深層学習に基づく地図マッチングモデルを提案する。合成軌道データを生成し,トランスフォーマーモデルを事前学習し,有限個の接地トラスデータでモデルを微調整する。
論文参考訳（メタデータ） (2021-08-01T11:51:11Z)
Distilling Interpretable Models into Human-Readable Code [71.11328360614479]
人間可読性は機械学習モデル解釈可能性にとって重要で望ましい標準である。従来の方法を用いて解釈可能なモデルを訓練し,それを簡潔で可読なコードに抽出する。本稿では,幅広いユースケースで効率的に,確実に高品質な結果を生成する分別線形曲線フィッティングアルゴリズムについて述べる。
論文参考訳（メタデータ） (2021-01-21T01:46:36Z)
Goal-directed Generation of Discrete Structures with Conditional Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文参考訳（メタデータ） (2020-10-05T20:03:13Z)
Learning Gaussian Graphical Models via Multiplicative Weights [54.252053139374205]
乗算重み更新法に基づいて,Klivans と Meka のアルゴリズムを適用した。アルゴリズムは、文献の他のものと質的に類似したサンプル複雑性境界を楽しみます。ランタイムが低い$O(mp2)$で、$m$サンプルと$p$ノードの場合には、簡単にオンライン形式で実装できる。
論文参考訳（メタデータ） (2020-02-20T10:50:58Z)
Predicting Multidimensional Data via Tensor Learning [0.0]
本研究では,本データセットの内在的多次元構造を保持するモデルを開発する。モデルパラメータを推定するために、オルタネート・リースト・スクエアスアルゴリズムを開発した。提案モデルは,予測文献に存在するベンチマークモデルより優れている。
論文参考訳（メタデータ） (2020-02-11T11:57:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。