論文の概要: Knowing Your Nonlinearities: Shapley Interactions Reveal the Underlying Structure of Data
- arxiv url: http://arxiv.org/abs/2403.13106v1
- Date: Tue, 19 Mar 2024 19:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-21 18:56:56.727658
- Title: Knowing Your Nonlinearities: Shapley Interactions Reveal the Underlying Structure of Data
- Title(参考訳): 非線形性を知る:データの下層構造を明らかにする共有インタラクション
- Authors: Divyansh Singhvi, Andrej Erkelens, Raghav Jain, Diganta Misra, Naomi Saphra,
- Abstract要約: 我々はShapley Taylorインタラクション指標(STII)を用いて、基礎となるデータ構造がモデル表現に与える影響を分析する。
マスキングおよび自己回帰言語モデル(MLとALM)の言語構造を考えると,STIIは慣用表現内で増加することが分かる。
本研究の音声モデルでは, 音素の開口度が音素の文脈によってどの程度変化するかを, 音素の主成分として反映している。
- 参考スコア(独自算出の注目度): 8.029715695737567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measuring nonlinear feature interaction is an established approach to understanding complex patterns of attribution in many models. In this paper, we use Shapley Taylor interaction indices (STII) to analyze the impact of underlying data structure on model representations in a variety of modalities, tasks, and architectures. Considering linguistic structure in masked and auto-regressive language models (MLMs and ALMs), we find that STII increases within idiomatic expressions and that MLMs scale STII with syntactic distance, relying more on syntax in their nonlinear structure than ALMs do. Our speech model findings reflect the phonetic principal that the openness of the oral cavity determines how much a phoneme varies based on its context. Finally, we study image classifiers and illustrate that feature interactions intuitively reflect object boundaries. Our wide range of results illustrates the benefits of interdisciplinary work and domain expertise in interpretability research.
- Abstract(参考訳): 非線形特徴相互作用の測定は、多くのモデルにおける帰属の複雑なパターンを理解するための確立されたアプローチである。
本稿では、Shapley Taylorインタラクション指標(STII)を用いて、様々なモダリティ、タスク、アーキテクチャにおいて、基礎となるデータ構造がモデル表現に与える影響を分析する。
マスク付きおよび自己回帰型言語モデル(MLM,ALM)の言語構造を考えると,STIIは慣用表現内で増加し,MLMは構文的距離でSTIIをスケールし,ALMよりも非線形構造における構文に依存していることがわかった。
本研究の音声モデルでは, 音素の開口度が音素の文脈によってどの程度変化するかを, 音素の主成分として反映している。
最後に,画像分類器について検討し,特徴的相互作用が物体の境界を直感的に反映することを示す。
我々の幅広い研究成果は、学際的な研究と解釈可能性研究におけるドメインの専門知識の利点を示している。
関連論文リスト
- SALAD: Improving Robustness and Generalization through Contrastive Learning with Structure-Aware and LLM-Driven Augmented Data [15.366930934639838]
モデルロバスト性と一般化を向上する新しいアプローチであるSALADを提案する。
提案手法は,コントラスト学習のための構造認識および非実効的拡張データを生成する。
本研究のアプローチは,感性分類,性行為検出,自然言語推論の3つのタスクを用いて検証する。
論文 参考訳(メタデータ) (2025-04-16T15:40:10Z) - A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。
マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。
本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文 参考訳(メタデータ) (2025-02-22T20:55:26Z) - Analysis and Visualization of Linguistic Structures in Large Language Models: Neural Representations of Verb-Particle Constructions in BERT [0.0]
本研究では,大言語モデル(LLM)における動詞-助詞の組み合わせの内部表現について検討する。
我々は'agree on'、'come back'、'give up'といった様々な動詞粒子構築のための各層の表現効果を分析する。
その結果,BERTの中間層は,各動詞カテゴリの表現精度に有意なばらつきがあり,構文構造を効果的に捉えていることがわかった。
論文 参考訳(メタデータ) (2024-12-19T09:21:39Z) - Interpreting token compositionality in LLMs: A robustness analysis [10.777646083061395]
Constituent-Aware Pooling (CAP)は、大規模言語モデルが言語構造をどのように処理するかを分析するために設計された方法論である。
CAPは様々なモデルレベルで構成型プールを通してモデル活性化に介入する。
論文 参考訳(メタデータ) (2024-10-16T18:10:50Z) - Unsupervised Morphological Tree Tokenizer [36.584680344291556]
トークン化のための形態的構造ガイダンスを導入し、単語の文字レベル構造を誘導する深層モデルを提案する。
本手法は,アノテート学習データなしで形態素規則に整合した文字レベルの構造を誘導することができる。
実験の結果,提案手法は完全形態素を効果的に保持し,BPEやWordPieceといった広く採用されている手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-21T15:35:49Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Syntax-Informed Interactive Model for Comprehensive Aspect-Based
Sentiment Analysis [0.0]
総合ABSAのためのシンタクティック・依存性強化マルチタスクインタラクション・アーキテクチャ(SDEMTIA)を提案する。
我々のアプローチは、SDEIN(Syntactic Dependency Embedded Interactive Network)を用いた構文知識(依存関係と型)を革新的に活用する。
また,学習効率を高めるために,マルチタスク学習フレームワークに,新規で効率的なメッセージパッシング機構を組み込んだ。
論文 参考訳(メタデータ) (2023-11-28T16:03:22Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Feature Interactions Reveal Linguistic Structure in Language Models [2.0178765779788495]
本研究では,ポストホック解釈における特徴帰属手法の文脈における特徴的相互作用について検討した。
私たちは、正規言語分類タスクで完璧にモデルをトレーニングする灰色のボックスの方法論を開発します。
特定の構成下では、いくつかの手法が実際にモデルが獲得した文法規則を明らかにすることができることを示す。
論文 参考訳(メタデータ) (2023-06-21T11:24:41Z) - Competence-Based Analysis of Language Models [21.43498764977656]
CALM (Competence-based Analysis of Language Models) は、特定のタスクの文脈におけるLLM能力を調べるために設計された。
我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。
これらの介入を用いてCALMのケーススタディを行い、様々な語彙推論タスクにおけるLCM能力の分析と比較を行う。
論文 参考訳(メタデータ) (2023-03-01T08:53:36Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - The Geometry of Self-supervised Learning Models and its Impact on
Transfer Learning [62.601681746034956]
自己教師型学習(SSL)はコンピュータビジョンにおいて望ましいパラダイムとして登場した。
本稿では,各特徴空間内の局所的近傍を用いて異なるSSLモデルを分析するためのデータ駆動幾何学的手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T18:15:38Z) - Unsupervised Mismatch Localization in Cross-Modal Sequential Data [5.932046800902776]
我々は、コンテンツミスマッチしたクロスモーダルデータ間の関係を推測できる教師なし学習アルゴリズムを開発した。
本稿では,音声生成過程を階層的に構造化された潜在変数に分解する,ミスマッチ局所化変分自動符号化(ML-VAE)という階層型ベイズディープラーニングモデルを提案する。
実験の結果,ML-VAEは人間のアノテーションを必要とせず,テキストと音声のミスマッチの特定に成功した。
論文 参考訳(メタデータ) (2022-05-05T14:23:27Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - Explaining Neural Network Predictions on Sentence Pairs via Learning
Word-Group Masks [21.16662651409811]
入力テキストペアから相関語をグループ化して単語相関を暗黙的に検出するグループマスク(GMASK)手法を提案する。
提案手法は4つのデータセットにまたがる2つの異なるモデルアーキテクチャ (decomposable attention model と bert) を用いて評価した。
論文 参考訳(メタデータ) (2021-04-09T17:14:34Z) - Structured Attention for Unsupervised Dialogue Structure Induction [110.12561786644122]
本稿では、構造化された注意層を離散潜在状態を持つ変化型リカレントニューラルネットワーク(VRNN)モデルに組み込んで、教師なしの方法で対話構造を学ぶことを提案する。
バニラVRNNと比較して、構造化された注意は、構造的帰納バイアスを強制しながら、ソース文の埋め込みの異なる部分にフォーカスすることができる。
論文 参考訳(メタデータ) (2020-09-17T23:07:03Z) - Semantic Complexity in End-to-End Spoken Language Understanding [20.184305170102082]
本稿では,STIモデルの性能と適用の難しさとの関係を解析する。
論文で報告されているSTIモデルのほぼ完全な性能指標は,意味複雑性の低いデータセットを用いて得られた。
論文 参考訳(メタデータ) (2020-08-06T20:18:53Z) - Exploiting Syntactic Structure for Better Language Modeling: A Syntactic
Distance Approach [78.77265671634454]
我々はマルチタスクの目的、すなわち、モデルが単語を同時に予測し、また「シンタクティック距離」と呼ばれる形態で真実解析木を解析する。
Penn Treebank と Chinese Treebank のデータセットによる実験結果から,地上の真理解析木を追加の訓練信号として提供すると,そのモデルはより低いパープレキシティを実現し,より良い品質で木を誘導できることが示された。
論文 参考訳(メタデータ) (2020-05-12T15:35:00Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - A Dependency Syntactic Knowledge Augmented Interactive Architecture for
End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。
このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。
3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-04-04T14:59:32Z) - Temporal Embeddings and Transformer Models for Narrative Text
Understanding [72.88083067388155]
キャラクタ関係モデリングのための物語テキスト理解のための2つのアプローチを提案する。
これらの関係の時間的進化は動的単語埋め込みによって説明され、時間とともに意味的変化を学ぶように設計されている。
最新の変換器モデルBERTに基づく教師付き学習手法を用いて文字間の静的な関係を検出する。
論文 参考訳(メタデータ) (2020-03-19T14:23:12Z) - An enhanced Tree-LSTM architecture for sentence semantic modeling using
typed dependencies [0.0]
Tree-based Long short term memory (LSTM) ネットワークは、言語テキストの意味をモデル化するための最先端技術となっている。
本稿では、シーケンスの2つの入力間の関係をモデル化できる、リレーショナルゲートLSTMと呼ばれる拡張LSTMアーキテクチャを提案する。
また、文依存解析構造と依存型を用いて、文の意味を密度の高いベクトルに埋め込むTyped Dependency Tree-LSTMモデルを導入する。
論文 参考訳(メタデータ) (2020-02-18T18:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。