Fugu-MT 論文翻訳(概要): LMdiff: A Visual Diff Tool to Compare Language Models

論文の概要: LMdiff: A Visual Diff Tool to Compare Language Models

arxiv url: http://arxiv.org/abs/2111.01582v1
Date: Tue, 2 Nov 2021 13:17:20 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-03 14:04:26.666724
Title: LMdiff: A Visual Diff Tool to Compare Language Models
Title（参考訳）: lmdiff: 言語モデルを比較するためのビジュアルdiffツール
Authors: Hendrik Strobelt, Benjamin Hoover, Arvind Satyanarayan, Sebastian Gehrmann
Abstract要約: LMdiffは異なる2つのモデルの確率分布を視覚的に比較するツールである。複数のケーススタディにまたがって仮説生成におけるLMdiffの適用性を示す。
参考スコア（独自算出の注目度）: 25.229215469012637
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: While different language models are ubiquitous in NLP, it is hard to contrast their outputs and identify which contexts one can handle better than the other. To address this question, we introduce LMdiff, a tool that visually compares probability distributions of two models that differ, e.g., through finetuning, distillation, or simply training with different parameter sizes. LMdiff allows the generation of hypotheses about model behavior by investigating text instances token by token and further assists in choosing these interesting text instances by identifying the most interesting phrases from large corpora. We showcase the applicability of LMdiff for hypothesis generation across multiple case studies. A demo is available at http://lmdiff.net .
Abstract（参考訳）: 異なる言語モデルはNLPにおいてユビキタスであるが、出力を対比し、どの文脈が他の言語よりもうまく扱えるかを特定することは困難である。この問題に対処するために,我々は,微調整や蒸留,あるいは単に異なるパラメータサイズでのトレーニングを通じて,異なる2つのモデルの確率分布を視覚的に比較するツールであるlmdiffを紹介する。 LMdiffは、トークンによるテキストインスタンストークンの調査によるモデル行動に関する仮説の生成を可能にし、大きなコーパスから最も興味深いフレーズを識別することで、これらの興味深いテキストインスタンスの選択を支援する。複数のケーススタディにまたがって仮説生成におけるLMdiffの適用性を示す。デモはhttp://lmdiff.net.com/で見ることができる。

関連論文リスト

BehaviorBox: Automated Discovery of Fine-Grained Performance Differences Between Language Models [55.2480439325792]
本稿では,性能を考慮した文脈埋め込みを用いた言語モデルの自動比較手法を提案する。提案手法は,2つのLM間の生成容易性について,その相違点を示すコヒーレントな特徴を抽出する。本研究では,サイズ,モデルファミリ,ポストトレーニングの異なるモデルを比較し,コーパスレベルの難易度だけでは見つからないパフォーマンスの有意義な違いを示す,特定のコンテキストに対する洞察を列挙する。
論文参考訳（メタデータ） (2025-06-02T19:44:06Z)
You've Changed: Detecting Modification of Black-Box Large Language Models [4.7541096609711]
大規模言語モデル(LLM)はAPIを通じてサービスとして提供されることが多いため、開発者は振る舞いの変化を検出することが難しい。生成したテキストの言語的特徴と心理言語学的特徴の分布を比較することで,変化に対するLLMの監視手法を提案する。
論文参考訳（メタデータ） (2025-04-14T04:16:43Z)
I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models [50.34197948438868]
ThinkDiffは、マルチモーダルなインコンテキスト理解と推論機能を備えたテキストから画像への拡散モデルを強化するアライメントパラダイムである。我々はThinkDiffの精度が19.2%から46.3%に大幅に向上したことを示す。また、複数の画像やテキストを論理的に一貫性のある画像に合成する際、例外的な性能を示す。
論文参考訳（メタデータ） (2025-02-12T05:30:08Z)
Model-diff: A Tool for Comparative Study of Language Models in the Input Space [34.680890752084004]
本稿では,ブルートフォース列挙が実現不可能な大入力空間を考慮した新しいモデル比較分析手法を提案する。実験により、大規模な入力空間におけるLM間の定量的予測の違いが初めて明らかとなり、モデルプラジャリズムのような応用のためのモデル解析が促進される可能性がある。
論文参考訳（メタデータ） (2024-12-13T00:06:25Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文参考訳（メタデータ） (2024-06-02T23:13:56Z)
Effects of diversity incentives on sample diversity and downstream model performance in LLM-based text augmentation [6.273933281069326]
クラウドソーシングにおいて確立された3つのテキスト多様性インセンティブ手法について検討する。タブー語によって多様性が最も増大することが示されるが、下流モデルの性能はヒントを伴って最高である。
論文参考訳（メタデータ） (2024-01-12T15:46:43Z)
diff History for Neural Language Agents [33.13471417703669]
これらの問題に対するシンプルで効果的なソリューションである差分履歴を導入します。 The Unix diff command on continuous text observed in the interaction histories used to prompt LM policy, we can be abstract away redundant information。意思決定のために長い水平推論を必要とする未解決のビデオゲームであるNetHackでは、diff履歴を調整したLMがニューラルエージェントの最先端のパフォーマンスにマッチする。
論文参考訳（メタデータ） (2023-12-12T18:59:30Z)
Describing Differences in Image Sets with Natural Language [101.80939666230168]
モデルの振る舞いを理解し、データセットを分析するためには、セットレベルの差異を識別することが不可欠である。本稿では、まずイメージをキャプションし、言語モデルに差分記述を提案するVisDiffを紹介する。データセットとモデルにこれまで知られていなかった興味深い違いを見つけることができ、微妙な洞察を明らかにする上で、VisDiffの実用性を示すことができます。
論文参考訳（メタデータ） (2023-12-05T18:59:16Z)
Perturbed examples reveal invariances shared by language models [8.04604449335578]
2つのNLPモデルを比較するための新しいフレームワークを提案する。このフレームワークは、同じおよび異なるアーキテクチャファミリーのモデルに関する実験であり、モデルの変化が言語機能にどのように影響するかについての洞察を提供する。
論文参考訳（メタデータ） (2023-11-07T17:48:35Z)
MacLaSa: Multi-Aspect Controllable Text Generation via Efficient Sampling from Compact Latent Space [110.85888003111653]
マルチアスペクト制御可能なテキスト生成は、複数の望ましい属性を同時に持つ流動文を生成することを目的としている。マルチアスペクト制御のための新しいアプローチ、すなわちMacLaSaを導入し、複数の側面に対してコンパクトな潜在空間を推定する。また,MacLaSaは,高い推論速度を維持しつつ,属性関連性やテキスト品質を高いベースラインで向上させることを示す。
論文参考訳（メタデータ） (2023-05-22T07:30:35Z)
Visualizing Linguistic Diversity of Text Datasets Synthesized by Large Language Models [9.808214545408541]
LinguisticLensは,データセットの構文的多様性を理解し解析するための,新たなインタラクティブな可視化ツールである。テキストデータセットの階層的な可視化をサポートしており、ユーザーは概要を素早くスキャンし、個々の例を検査することができる。
論文参考訳（メタデータ） (2023-05-19T00:53:45Z)
Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。我々のモデルは、$N$言語で並列データを操作する。本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文参考訳（メタデータ） (2022-12-21T02:41:40Z)
Multivariate Data Explanation by Jumping Emerging Patterns Visualization [78.6363825307044]
多変量データセットにおけるパターンの識別と視覚的解釈を支援するVAX(multiVariate dAta eXplanation)を提案する。既存の類似のアプローチとは異なり、VAXはJumping Emerging Patternsという概念を使って、複数の多様化したパターンを特定し、集約し、データ変数のロジックの組み合わせを通して説明を生成する。
論文参考訳（メタデータ） (2021-06-21T13:49:44Z)
Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文参考訳（メタデータ） (2020-11-13T10:53:27Z)
SentenceMIM: A Latent Variable Language Model [19.39122632876056]
SentenceMIMは言語データのための確率論的オートエンコーダである。ミューチュアル・インフォメーション・マシン(MIM)を用いて学習し、可変長言語観測の固定長表現を提供する。本研究では,質問応答学習と伝達学習のための学習モデルを用いて文MIMの汎用性を実証する。
論文参考訳（メタデータ） (2020-02-18T15:34:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。