論文の概要: LMdiff: A Visual Diff Tool to Compare Language Models
- arxiv url: http://arxiv.org/abs/2111.01582v1
- Date: Tue, 2 Nov 2021 13:17:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 14:04:26.666724
- Title: LMdiff: A Visual Diff Tool to Compare Language Models
- Title(参考訳): lmdiff: 言語モデルを比較するためのビジュアルdiffツール
- Authors: Hendrik Strobelt, Benjamin Hoover, Arvind Satyanarayan, Sebastian
Gehrmann
- Abstract要約: LMdiffは異なる2つのモデルの確率分布を視覚的に比較するツールである。
複数のケーススタディにまたがって仮説生成におけるLMdiffの適用性を示す。
- 参考スコア(独自算出の注目度): 25.229215469012637
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While different language models are ubiquitous in NLP, it is hard to contrast
their outputs and identify which contexts one can handle better than the other.
To address this question, we introduce LMdiff, a tool that visually compares
probability distributions of two models that differ, e.g., through finetuning,
distillation, or simply training with different parameter sizes. LMdiff allows
the generation of hypotheses about model behavior by investigating text
instances token by token and further assists in choosing these interesting text
instances by identifying the most interesting phrases from large corpora. We
showcase the applicability of LMdiff for hypothesis generation across multiple
case studies. A demo is available at http://lmdiff.net .
- Abstract(参考訳): 異なる言語モデルはNLPにおいてユビキタスであるが、出力を対比し、どの文脈が他の言語よりもうまく扱えるかを特定することは困難である。
この問題に対処するために,我々は,微調整や蒸留,あるいは単に異なるパラメータサイズでのトレーニングを通じて,異なる2つのモデルの確率分布を視覚的に比較するツールであるlmdiffを紹介する。
LMdiffは、トークンによるテキストインスタンストークンの調査によるモデル行動に関する仮説の生成を可能にし、大きなコーパスから最も興味深いフレーズを識別することで、これらの興味深いテキストインスタンスの選択を支援する。
複数のケーススタディにまたがって仮説生成におけるLMdiffの適用性を示す。
デモはhttp://lmdiff.net.com/で見ることができる。
関連論文リスト
- I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models [50.34197948438868]
ThinkDiffは、マルチモーダルなインコンテキスト理解と推論機能を備えたテキストから画像への拡散モデルを強化するアライメントパラダイムである。
我々はThinkDiffの精度が19.2%から46.3%に大幅に向上したことを示す。
また、複数の画像やテキストを論理的に一貫性のある画像に合成する際、例外的な性能を示す。
論文 参考訳(メタデータ) (2025-02-12T05:30:08Z) - Model-diff: A Tool for Comparative Study of Language Models in the Input Space [34.680890752084004]
本稿では,ブルートフォース列挙が実現不可能な大入力空間を考慮した新しいモデル比較分析手法を提案する。
実験により、大規模な入力空間におけるLM間の定量的予測の違いが初めて明らかとなり、モデルプラジャリズムのような応用のためのモデル解析が促進される可能性がある。
論文 参考訳(メタデータ) (2024-12-13T00:06:25Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Effects of diversity incentives on sample diversity and downstream model performance in LLM-based text augmentation [6.273933281069326]
クラウドソーシングにおいて確立された3つのテキスト多様性インセンティブ手法について検討する。
タブー語によって多様性が最も増大することが示されるが、下流モデルの性能はヒントを伴って最高である。
論文 参考訳(メタデータ) (2024-01-12T15:46:43Z) - diff History for Neural Language Agents [33.13471417703669]
これらの問題に対するシンプルで効果的なソリューションである差分履歴を導入します。
The Unix diff command on continuous text observed in the interaction histories used to prompt LM policy, we can be abstract away redundant information。
意思決定のために長い水平推論を必要とする未解決のビデオゲームであるNetHackでは、diff履歴を調整したLMがニューラルエージェントの最先端のパフォーマンスにマッチする。
論文 参考訳(メタデータ) (2023-12-12T18:59:30Z) - Describing Differences in Image Sets with Natural Language [101.80939666230168]
モデルの振る舞いを理解し、データセットを分析するためには、セットレベルの差異を識別することが不可欠である。
本稿では、まずイメージをキャプションし、言語モデルに差分記述を提案するVisDiffを紹介する。
データセットとモデルにこれまで知られていなかった興味深い違いを見つけることができ、微妙な洞察を明らかにする上で、VisDiffの実用性を示すことができます。
論文 参考訳(メタデータ) (2023-12-05T18:59:16Z) - Perturbed examples reveal invariances shared by language models [8.04604449335578]
2つのNLPモデルを比較するための新しいフレームワークを提案する。
このフレームワークは、同じおよび異なるアーキテクチャファミリーのモデルに関する実験であり、モデルの変化が言語機能にどのように影響するかについての洞察を提供する。
論文 参考訳(メタデータ) (2023-11-07T17:48:35Z) - MacLaSa: Multi-Aspect Controllable Text Generation via Efficient
Sampling from Compact Latent Space [110.85888003111653]
マルチアスペクト制御可能なテキスト生成は、複数の望ましい属性を同時に持つ流動文を生成することを目的としている。
マルチアスペクト制御のための新しいアプローチ、すなわちMacLaSaを導入し、複数の側面に対してコンパクトな潜在空間を推定する。
また,MacLaSaは,高い推論速度を維持しつつ,属性関連性やテキスト品質を高いベースラインで向上させることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:30:35Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Multivariate Data Explanation by Jumping Emerging Patterns Visualization [78.6363825307044]
多変量データセットにおけるパターンの識別と視覚的解釈を支援するVAX(multiVariate dAta eXplanation)を提案する。
既存の類似のアプローチとは異なり、VAXはJumping Emerging Patternsという概念を使って、複数の多様化したパターンを特定し、集約し、データ変数のロジックの組み合わせを通して説明を生成する。
論文 参考訳(メタデータ) (2021-06-21T13:49:44Z) - SentenceMIM: A Latent Variable Language Model [19.39122632876056]
SentenceMIMは言語データのための確率論的オートエンコーダである。
ミューチュアル・インフォメーション・マシン(MIM)を用いて学習し、可変長言語観測の固定長表現を提供する。
本研究では,質問応答学習と伝達学習のための学習モデルを用いて文MIMの汎用性を実証する。
論文 参考訳(メタデータ) (2020-02-18T15:34:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。