論文の概要: VERBA: Verbalizing Model Differences Using Large Language Models
- arxiv url: http://arxiv.org/abs/2507.02241v1
- Date: Thu, 03 Jul 2025 02:25:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.474271
- Title: VERBA: Verbalizing Model Differences Using Large Language Models
- Title(参考訳): VERBA: 大規模言語モデルを用いたモデル違いの言語化
- Authors: Shravan Doda, Shashidhar Reddy Javaji, Zining Zhu,
- Abstract要約: モデル差分を2つのモデルからサンプリングして動詞化するために$textbfVERBA$を導入する。
最大5%のパフォーマンス差があるが、20-25%の振る舞いの違いを持つ2つの決定ツリーモデルの場合、$textbfVERBA$は、そのバリエーションを最大80%の精度で効果的に動詞化する。
- 参考スコア(独自算出の注目度): 3.2771631221674333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the current machine learning landscape, we face a "model lake" phenomenon: Given a task, there is a proliferation of trained models with similar performances despite different behavior. For model users attempting to navigate and select from the models, documentation comparing model pairs is helpful. However, for every $N$ models there could be $O(N^2)$ pairwise comparisons, a number prohibitive for the model developers to manually perform pairwise comparisons and prepare documentations. To facilitate fine-grained pairwise comparisons among models, we introduced $\textbf{VERBA}$. Our approach leverages a large language model (LLM) to generate verbalizations of model differences by sampling from the two models. We established a protocol that evaluates the informativeness of the verbalizations via simulation. We also assembled a suite with a diverse set of commonly used machine learning models as a benchmark. For a pair of decision tree models with up to 5% performance difference but 20-25% behavioral differences, $\textbf{VERBA}$ effectively verbalizes their variations with up to 80% overall accuracy. When we included the models' structural information, the verbalization's accuracy further improved to 90%. $\textbf{VERBA}$ opens up new research avenues for improving the transparency and comparability of machine learning models in a post-hoc manner.
- Abstract(参考訳): 現在の機械学習の世界では、私たちは"モデルレイク"という現象に直面しています。
モデルからナビゲートして選択しようとするモデルユーザにとって、モデルペアを比較するドキュメントは有用だ。
しかし、すべての$N$モデルに対して$O(N^2)$ペアワイズ比較があり、これはモデル開発者が手動でペアワイズ比較を実行し、ドキュメントを作成するのを禁止している。
モデル間の微粒なペアワイズ比較を容易にするため、$\textbf{VERBA}$を導入した。
提案手法は,大言語モデル(LLM)を用いて,2つのモデルから抽出したモデル差の動詞化を生成する。
そこで我々は,シミュレーションによる発話の伝達性を評価するプロトコルを構築した。
また、ベンチマークとして広く使われている機械学習モデルの多様なセットでスイートを組み立てました。
最大5%のパフォーマンス差があるが、20-25%の振る舞いの違いを持つ2つの決定ツリーモデルの場合、$\textbf{VERBA}$は、そのバリエーションを最大80%の精度で効果的に動詞化します。
モデルの構造情報を含めると、言語化の精度はさらに90%向上した。
$\textbf{VERBA}$は、ポストホックな方法で機械学習モデルの透明性と可視性を改善するための新しい研究の道を開く。
関連論文リスト
- ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Perturbed examples reveal invariances shared by language models [8.04604449335578]
2つのNLPモデルを比較するための新しいフレームワークを提案する。
このフレームワークは、同じおよび異なるアーキテクチャファミリーのモデルに関する実験であり、モデルの変化が言語機能にどのように影響するかについての洞察を提供する。
論文 参考訳(メタデータ) (2023-11-07T17:48:35Z) - Automatic Model Selection with Large Language Models for Reasoning [33.93807127935167]
Chain-of-Thought (CoT) と Program-Aided Language Models (PAL) は2つの異なる推論方法を表す。
本稿では,大言語モデルを用いて両世界の長所を結合するモデル選択手法を提案する。
提案手法は,8つの推論データセット間で有意な性能向上を示す。
論文 参考訳(メタデータ) (2023-05-23T17:57:59Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - ModelDiff: Testing-Based DNN Similarity Comparison for Model Reuse
Detection [9.106864924968251]
ModelDiffは、ディープラーニングモデル類似性比較に対するテストベースのアプローチである。
モバイルディープラーニングアプリの研究は、現実世界のモデルにおけるModelDiffの可能性を示している。
論文 参考訳(メタデータ) (2021-06-11T15:16:18Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z) - Introducing various Semantic Models for Amharic: Experimentation and
Evaluation with multiple Tasks and Datasets [19.855120632909124]
我々はAmharicの異なるセマンティックモデルを導入する。
モデルは word2Vec 埋め込み、分散シソーラス (DT)、コンテキスト埋め込み、DT 埋め込みを使って構築される。
新たに訓練されたモデルは、事前訓練された多言語モデルよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2020-11-02T17:48:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。