論文の概要: Flexible Model Interpretability through Natural Language Model Editing
- arxiv url: http://arxiv.org/abs/2311.10905v1
- Date: Fri, 17 Nov 2023 23:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 13:31:15.027912
- Title: Flexible Model Interpretability through Natural Language Model Editing
- Title(参考訳): 自然言語モデル編集による柔軟なモデル解釈
- Authors: Karel D'Oosterlinck, Thomas Demeester, Chris Develder, Christopher
Potts
- Abstract要約: 人的関心の概念に関して、モデル行動を体系的に編集することができる。
このエディターメソッドは、内部表現をより解釈しやすいものにするのに役立つ。
- 参考スコア(独自算出の注目度): 29.547086048644545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model interpretability and model editing are crucial goals in the age of
large language models. Interestingly, there exists a link between these two
goals: if a method is able to systematically edit model behavior with regard to
a human concept of interest, this editor method can help make internal
representations more interpretable by pointing towards relevant representations
and systematically manipulating them.
- Abstract(参考訳): モデル解釈性とモデル編集は、大きな言語モデルの時代における重要な目標である。
興味深いことに、この2つの目標の間には関連がある: 人間の関心概念に関するモデル動作を体系的に編集できるメソッドがあれば、このエディター手法は、関連する表現を指してそれらを体系的に操作することによって、内部表現をより解釈しやすくするのに役立つ。
関連論文リスト
- Penzai + Treescope: A Toolkit for Interpreting, Visualizing, and Editing Models As Data [3.1138391937813776]
Penzaiは、モデル操作を簡単にするためのニューラルネットワークライブラリである。
Treescopeはインタラクティブなビュートプリンダーであり、モデルインプット/アウトプットとモデル自体を視覚化できる配列ビジュアライザである。
論文 参考訳(メタデータ) (2024-08-01T00:45:37Z) - Diffexplainer: Towards Cross-modal Global Explanations with Diffusion Models [51.21351775178525]
DiffExplainerは、言語ビジョンモデルを活用することで、マルチモーダルなグローバルな説明可能性を実現する新しいフレームワークである。
最適化されたテキストプロンプトに条件付けされた拡散モデルを使用し、クラス出力を最大化する画像を合成する。
生成した視覚的記述の分析により、バイアスと突発的特徴の自動識別が可能になる。
論文 参考訳(メタデータ) (2024-04-03T10:11:22Z) - Understanding the Inner Workings of Language Models Through
Representation Dissimilarity [5.987278280211877]
表現差分測度は、2つのモデルの内部表現が異なる範囲を測定する関数である。
この結果から,言語モデルの内部動作に光を当てる手段としては,異種度対策が有望なツールセットであることが示唆された。
論文 参考訳(メタデータ) (2023-10-23T14:46:20Z) - Interpreting and Controlling Vision Foundation Models via Text
Explanations [45.30541722925515]
本稿では,視覚変換器の潜在トークンを自然言語で解釈するフレームワークを提案する。
我々のアプローチは、追加のモデルトレーニングやデータ収集を必要とせずに、モデルの視覚的推論手順の理解を可能にする。
論文 参考訳(メタデータ) (2023-10-16T17:12:06Z) - Feature Interactions Reveal Linguistic Structure in Language Models [2.0178765779788495]
本研究では,ポストホック解釈における特徴帰属手法の文脈における特徴的相互作用について検討した。
私たちは、正規言語分類タスクで完璧にモデルをトレーニングする灰色のボックスの方法論を開発します。
特定の構成下では、いくつかの手法が実際にモデルが獲得した文法規則を明らかにすることができることを示す。
論文 参考訳(メタデータ) (2023-06-21T11:24:41Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Language Model Cascades [72.18809575261498]
テスト時に1つのモデルで繰り返し対話する、あるいは複数のモデルの合成は、さらに機能を拡張する。
制御フローと動的構造を持つ場合、確率的プログラミングのテクニックが必要となる。
この観点から、スクラッチパッド/思考連鎖、検証器、STaR、選択推論、ツール利用など、いくつかの既存のテクニックを定式化します。
論文 参考訳(メタデータ) (2022-07-21T07:35:18Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Interactively Generating Explanations for Transformer Language Models [14.306470205426526]
トランスフォーマー言語モデルは、多くのNLPタスクにおいて最先端である。
最近の手法はブラックボックスモデルに対する解釈可能性と説明可能性を提供することを目的としている。
モデルアーキテクチャに直接組み込まれたプロトタイプネットワークを使うことを強調した。
論文 参考訳(メタデータ) (2021-09-02T11:34:29Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z) - Distilling Interpretable Models into Human-Readable Code [71.11328360614479]
人間可読性は機械学習モデル解釈可能性にとって重要で望ましい標準である。
従来の方法を用いて解釈可能なモデルを訓練し,それを簡潔で可読なコードに抽出する。
本稿では,幅広いユースケースで効率的に,確実に高品質な結果を生成する分別線形曲線フィッティングアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-01-21T01:46:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。