Fugu-MT 論文翻訳(概要): Using Shapley interactions to understand how models use structure

論文の概要: Using Shapley interactions to understand how models use structure

arxiv url: http://arxiv.org/abs/2403.13106v2
Date: Wed, 11 Jun 2025 14:47:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 06:35:01.357108
Title: Using Shapley interactions to understand how models use structure
Title（参考訳）: モデルがどのように構造を使うかを理解するためにShapleyインタラクションを使う
Authors: Divyansh Singhvi, Diganta Misra, Andrej Erkelens, Raghav Jain, Isabel Papadimitriou, Naomi Saphra,
Abstract要約: 我々は、Shapley Taylorインタラクション指標(STII)を用いて、言語モデルと音声モデルが内部的にどのように関係し、その入力を構造化するかを調べる。モデル内の相互作用パターンを,構文構造,非構成的意味論,音声的協調という3つの基礎的言語構造に関連付ける。
参考スコア（独自算出の注目度）: 9.93791871599425
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language is an intricately structured system, and a key goal of NLP interpretability is to provide methodological insights for understanding how language models represent this structure internally. In this paper, we use Shapley Taylor interaction indices (STII) in order to examine how language and speech models internally relate and structure their inputs. Pairwise Shapley interactions measure how much two inputs work together to influence model outputs beyond if we linearly added their independent influences, providing a view into how models encode structural interactions between inputs. We relate the interaction patterns in models to three underlying linguistic structures: syntactic structure, non-compositional semantics, and phonetic coarticulation. We find that autoregressive text models encode interactions that correlate with the syntactic proximity of inputs, and that both autoregressive and masked models encode nonlinear interactions in idiomatic phrases with non-compositional semantics. Our speech results show that inputs are more entangled for pairs where a neighboring consonant is likely to influence a vowel or approximant, showing that models encode the phonetic interaction needed for extracting discrete phonemic representations.
Abstract（参考訳）: 言語は複雑に構造化されたシステムであり、NLP解釈可能性の重要な目標は、言語モデルがこの構造を内部的にどのように表現するかを理解するための方法論的な洞察を提供することである。本稿では,Shapley Taylorインタラクション指標(STII)を用いて,言語モデルと音声モデルが内部的にどのように関係し,その入力を構造化するかを検討する。ペアワイズ・シェープリー相互作用は、モデル出力に線形的な影響を加えることで、モデルが入力間の構造的相互作用をエンコードする方法を提供する。モデル内の相互作用パターンを,構文構造,非構成的意味論,音声的協調という3つの基礎的言語構造に関連付ける。自己回帰テキストモデルは、入力の構文的近接と相関する相互作用を符号化し、自己回帰モデルとマスキングモデルは、非合成意味論を持つ慣用句の非線形相互作用を符号化する。その結果, 隣接子音が母音や近似に影響を及ぼす確率の高いペアに対して, 入力がより絡み合っていることを示し, 個々の音声表現を抽出するのに必要な音声相互作用をモデルが符号化していることを示す。

関連論文リスト

SALAD: Improving Robustness and Generalization through Contrastive Learning with Structure-Aware and LLM-Driven Augmented Data [15.366930934639838]
モデルロバスト性と一般化を向上する新しいアプローチであるSALADを提案する。提案手法は,コントラスト学習のための構造認識および非実効的拡張データを生成する。本研究のアプローチは,感性分類,性行為検出,自然言語推論の3つのタスクを用いて検証する。
論文参考訳（メタデータ） (2025-04-16T15:40:10Z)
A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文参考訳（メタデータ） (2025-02-22T20:55:26Z)
Analysis and Visualization of Linguistic Structures in Large Language Models: Neural Representations of Verb-Particle Constructions in BERT [0.0]
本研究では,大言語モデル(LLM)における動詞-助詞の組み合わせの内部表現について検討する。我々は'agree on'、'come back'、'give up'といった様々な動詞粒子構築のための各層の表現効果を分析する。その結果,BERTの中間層は,各動詞カテゴリの表現精度に有意なばらつきがあり,構文構造を効果的に捉えていることがわかった。
論文参考訳（メタデータ） (2024-12-19T09:21:39Z)
Interpreting token compositionality in LLMs: A robustness analysis [10.777646083061395]
Constituent-Aware Pooling (CAP)は、大規模言語モデルが言語構造をどのように処理するかを分析するために設計された方法論である。 CAPは様々なモデルレベルで構成型プールを通してモデル活性化に介入する。
論文参考訳（メタデータ） (2024-10-16T18:10:50Z)
Unsupervised Morphological Tree Tokenizer [36.584680344291556]
トークン化のための形態的構造ガイダンスを導入し、単語の文字レベル構造を誘導する深層モデルを提案する。本手法は,アノテート学習データなしで形態素規則に整合した文字レベルの構造を誘導することができる。実験の結果,提案手法は完全形態素を効果的に保持し,BPEやWordPieceといった広く採用されている手法よりも優れていた。
論文参考訳（メタデータ） (2024-06-21T15:35:49Z)
Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文参考訳（メタデータ） (2024-05-10T17:11:31Z)
Syntax-Informed Interactive Model for Comprehensive Aspect-Based Sentiment Analysis [0.0]
総合ABSAのためのシンタクティック・依存性強化マルチタスクインタラクション・アーキテクチャ(SDEMTIA)を提案する。我々のアプローチは、SDEIN(Syntactic Dependency Embedded Interactive Network)を用いた構文知識(依存関係と型)を革新的に活用する。また,学習効率を高めるために,マルチタスク学習フレームワークに,新規で効率的なメッセージパッシング機構を組み込んだ。
論文参考訳（メタデータ） (2023-11-28T16:03:22Z)
FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。 CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文参考訳（メタデータ） (2023-10-30T11:25:03Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)
Feature Interactions Reveal Linguistic Structure in Language Models [2.0178765779788495]
本研究では,ポストホック解釈における特徴帰属手法の文脈における特徴的相互作用について検討した。私たちは、正規言語分類タスクで完璧にモデルをトレーニングする灰色のボックスの方法論を開発します。特定の構成下では、いくつかの手法が実際にモデルが獲得した文法規則を明らかにすることができることを示す。
論文参考訳（メタデータ） (2023-06-21T11:24:41Z)
Competence-Based Analysis of Language Models [21.43498764977656]
CALM (Competence-based Analysis of Language Models) は、特定のタスクの文脈におけるLLM能力を調べるために設計された。我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。これらの介入を用いてCALMのケーススタディを行い、様々な語彙推論タスクにおけるLCM能力の分析と比較を行う。
論文参考訳（メタデータ） (2023-03-01T08:53:36Z)
Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文参考訳（メタデータ） (2022-10-26T13:27:26Z)
Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文参考訳（メタデータ） (2022-10-07T17:56:53Z)
The Geometry of Self-supervised Learning Models and its Impact on Transfer Learning [62.601681746034956]
自己教師型学習(SSL)はコンピュータビジョンにおいて望ましいパラダイムとして登場した。本稿では,各特徴空間内の局所的近傍を用いて異なるSSLモデルを分析するためのデータ駆動幾何学的手法を提案する。
論文参考訳（メタデータ） (2022-09-18T18:15:38Z)
Unsupervised Mismatch Localization in Cross-Modal Sequential Data [5.932046800902776]
我々は、コンテンツミスマッチしたクロスモーダルデータ間の関係を推測できる教師なし学習アルゴリズムを開発した。本稿では,音声生成過程を階層的に構造化された潜在変数に分解する,ミスマッチ局所化変分自動符号化(ML-VAE)という階層型ベイズディープラーニングモデルを提案する。実験の結果,ML-VAEは人間のアノテーションを必要とせず,テキストと音声のミスマッチの特定に成功した。
論文参考訳（メタデータ） (2022-05-05T14:23:27Z)
Did the Cat Drink the Coffee? Challenging Transformers with Generalized Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文参考訳（メタデータ） (2021-07-22T20:52:26Z)
Explaining Neural Network Predictions on Sentence Pairs via Learning Word-Group Masks [21.16662651409811]
入力テキストペアから相関語をグループ化して単語相関を暗黙的に検出するグループマスク(GMASK)手法を提案する。提案手法は4つのデータセットにまたがる2つの異なるモデルアーキテクチャ (decomposable attention model と bert) を用いて評価した。
論文参考訳（メタデータ） (2021-04-09T17:14:34Z)
Structured Attention for Unsupervised Dialogue Structure Induction [110.12561786644122]
本稿では、構造化された注意層を離散潜在状態を持つ変化型リカレントニューラルネットワーク(VRNN)モデルに組み込んで、教師なしの方法で対話構造を学ぶことを提案する。バニラVRNNと比較して、構造化された注意は、構造的帰納バイアスを強制しながら、ソース文の埋め込みの異なる部分にフォーカスすることができる。
論文参考訳（メタデータ） (2020-09-17T23:07:03Z)
Semantic Complexity in End-to-End Spoken Language Understanding [20.184305170102082]
本稿では,STIモデルの性能と適用の難しさとの関係を解析する。論文で報告されているSTIモデルのほぼ完全な性能指標は,意味複雑性の低いデータセットを用いて得られた。
論文参考訳（メタデータ） (2020-08-06T20:18:53Z)
Exploiting Syntactic Structure for Better Language Modeling: A Syntactic Distance Approach [78.77265671634454]
我々はマルチタスクの目的、すなわち、モデルが単語を同時に予測し、また「シンタクティック距離」と呼ばれる形態で真実解析木を解析する。 Penn Treebank と Chinese Treebank のデータセットによる実験結果から,地上の真理解析木を追加の訓練信号として提供すると,そのモデルはより低いパープレキシティを実現し,より良い品質で木を誘導できることが示された。
論文参考訳（メタデータ） (2020-05-12T15:35:00Z)
Improve Variational Autoencoder for Text Generationwith Discrete Latent Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。 VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文参考訳（メタデータ） (2020-04-22T14:41:37Z)
A Dependency Syntactic Knowledge Augmented Interactive Architecture for End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。 3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文参考訳（メタデータ） (2020-04-04T14:59:32Z)
Temporal Embeddings and Transformer Models for Narrative Text Understanding [72.88083067388155]
キャラクタ関係モデリングのための物語テキスト理解のための2つのアプローチを提案する。これらの関係の時間的進化は動的単語埋め込みによって説明され、時間とともに意味的変化を学ぶように設計されている。最新の変換器モデルBERTに基づく教師付き学習手法を用いて文字間の静的な関係を検出する。
論文参考訳（メタデータ） (2020-03-19T14:23:12Z)
An enhanced Tree-LSTM architecture for sentence semantic modeling using typed dependencies [0.0]
Tree-based Long short term memory (LSTM) ネットワークは、言語テキストの意味をモデル化するための最先端技術となっている。本稿では、シーケンスの2つの入力間の関係をモデル化できる、リレーショナルゲートLSTMと呼ばれる拡張LSTMアーキテクチャを提案する。また、文依存解析構造と依存型を用いて、文の意味を密度の高いベクトルに埋め込むTyped Dependency Tree-LSTMモデルを導入する。
論文参考訳（メタデータ） (2020-02-18T18:10:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。