論文の概要: ULTra: Unveiling Latent Token Interpretability in Transformer Based Understanding
- arxiv url: http://arxiv.org/abs/2411.12589v1
- Date: Fri, 15 Nov 2024 19:36:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:38:24.097408
- Title: ULTra: Unveiling Latent Token Interpretability in Transformer Based Understanding
- Title(参考訳): ULTra: トランスフォーマーによる理解における潜在トークン解釈の可能性
- Authors: Hesam Hosseini, Ghazal Hosseini Mighan, Amirabbas Afzali, Sajjad Amini, Amir Houmansadr,
- Abstract要約: 本稿では,トランスフォーマーの埋め込みを解釈し,意味のある意味的パターンを明らかにする新しいフレームワークを提案する。
ゼロショットの教師なしセマンティックセマンティックセグメンテーションを微調整なしで効果的に行うことができることを示す。
提案手法は,COCO-Stuffデータセットでは67.2 %,mIoU32.9 %,PASCALVOCデータセットではmIoU51.9 %である。
- 参考スコア(独自算出の注目度): 14.84547724351634
- License:
- Abstract: Transformers have revolutionized Computer Vision (CV) and Natural Language Processing (NLP) through self-attention mechanisms. However, due to their complexity, their latent token representations are often difficult to interpret. We introduce a novel framework that interprets Transformer embeddings, uncovering meaningful semantic patterns within them. Based on this framework, we demonstrate that zero-shot unsupervised semantic segmentation can be performed effectively without any fine-tuning using a model pre-trained for tasks other than segmentation. Our method reveals the inherent capacity of Transformer models for understanding input semantics and achieves state-of-the-art performance in semantic segmentation, outperforming traditional segmentation models. Specifically, our approach achieves an accuracy of 67.2 % and an mIoU of 32.9 % on the COCO-Stuff dataset, as well as an mIoU of 51.9 % on the PASCAL VOC dataset. Additionally, we validate our interpretability framework on LLMs for text summarization, demonstrating its broad applicability and robustness.
- Abstract(参考訳): トランスフォーマーは自己認識機構を通じてコンピュータビジョン(CV)と自然言語処理(NLP)に革命をもたらした。
しかし、その複雑さのため、その潜在トークン表現はしばしば解釈するのが困難である。
本稿では,トランスフォーマーの埋め込みを解釈し,意味のある意味的パターンを明らかにする新しいフレームワークを提案する。
この枠組みに基づいて,ゼロショットの教師なしセマンティックセマンティックセマンティクスを,セマンティクス以外のタスクのために事前訓練されたモデルを用いて微調整することなく効果的に実行できることを実証する。
提案手法は,入力意味論を理解するためのトランスフォーマーモデルの本質的能力を明らかにし,従来のセグメンテーションモデルよりも優れたセグメンテーションにおける最先端の性能を実現する。
具体的には,COCO-Stuffデータセットでは67.2 %,mIoUは32.9 %,PASCAL VOCデータセットではmIoUは51.9 %である。
さらに、テキスト要約のためのLLMの解釈可能性フレームワークを検証し、その適用性と堅牢性を示す。
関連論文リスト
- Vision Transformers with Natural Language Semantics [13.535916922328287]
視覚変換器(ViT)には、自然言語処理(NLP)と異なり、基本的な意味情報がない。
セマンティック・ビジョン・トランスフォーマー (Semantic Vision Transformers, SViT) は, セマンティック・インフォメーションを利用したトランスフォーマモデルである。
SViTは意味情報を効果的に活用し、畳み込みニューラルネットワークを連想させる誘導バイアスを生み出す。
論文 参考訳(メタデータ) (2024-02-27T19:54:42Z) - Graph-Induced Syntactic-Semantic Spaces in Transformer-Based Variational
AutoEncoders [5.037881619912574]
本稿では,トランスフォーマーを用いたVAEにおける構造構文注入のための潜時空間分離法について検討する。
具体的には、グラフベースおよびシーケンシャルモデルの統合により、符号化段階で構文構造をどのように活用するかを検討する。
我々の経験的評価は、自然言語文と数学的表現に基づいて行われ、提案したエンドツーエンドのVAEアーキテクチャにより、潜在空間の全体構造がより良くなることを示している。
論文 参考訳(メタデータ) (2023-11-14T22:47:23Z) - Flow Factorized Representation Learning [109.51947536586677]
本稿では、異なる入力変換を定義する潜在確率パスの別個のセットを規定する生成モデルを提案する。
本モデルは,ほぼ同変モデルに近づきながら,標準表現学習ベンチマークにおいて高い確率を達成することを示す。
論文 参考訳(メタデータ) (2023-09-22T20:15:37Z) - Interpretable Sentence Representation with Variational Autoencoders and
Attention [0.685316573653194]
自然言語処理(NLP)における近年の表現学習技術の解釈可能性を高める手法を開発した。
変動オートエンコーダ (VAEs) は, 遅延生成因子の観測に有効である。
帰納的バイアスを持つ2つのモデルを構築し、潜在表現の情報を注釈付きデータなしで理解可能な概念に分離する。
論文 参考訳(メタデータ) (2023-05-04T13:16:15Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Learning Semantic Textual Similarity via Topic-informed Discrete Latent
Variables [17.57873577962635]
我々は、意味的テキスト類似性のためのトピックインフォームド離散潜在変数モデルを開発した。
我々のモデルはベクトル量子化による文対表現のための共有潜在空間を学習する。
我々のモデルは意味的テキスト類似性タスクにおいて、いくつかの強力な神経ベースラインを超えることができることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:09:58Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - SlimSeg: Slimmable Semantic Segmentation with Boundary Supervision [54.16430358203348]
本稿では,単純なスリム化可能なセマンティックセマンティックセマンティクス(SlimSeg)法を提案する。
提案するSlimSegは,様々な主流ネットワークを用いて,計算コストの動的調整と性能向上を実現するフレキシブルなモデルを生成することができることを示す。
論文 参考訳(メタデータ) (2022-07-13T14:41:05Z) - Transferring Semantic Knowledge Into Language Encoders [6.85316573653194]
意味的意味表現から言語エンコーダへ意味的知識を伝達する手法である意味型ミッドチューニングを導入する。
このアライメントは分類や三重項の損失によって暗黙的に学習できることを示す。
提案手法は, 推論, 理解, テキストの類似性, その他の意味的タスクにおいて, 予測性能の向上を示す言語エンコーダを生成する。
論文 参考訳(メタデータ) (2021-10-14T14:11:12Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。