論文の概要: Attention-likelihood relationship in transformers
- arxiv url: http://arxiv.org/abs/2303.08288v1
- Date: Wed, 15 Mar 2023 00:23:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 15:14:06.782625
- Title: Attention-likelihood relationship in transformers
- Title(参考訳): 変圧器の注意関係
- Authors: Valeria Ruscio, Valentino Maiorca, Fabrizio Silvestri
- Abstract要約: 我々は、大言語モデル(LLM)が文脈外単語をどのように表現しているかを分析し、その意味を捉えるために、与えられた文脈への依存を調査する。
我々の可能性誘導型テキスト摂動は、トランスフォーマーベース言語モデルにおけるトークン確率と注意値の相関関係を明らかにする。
- 参考スコア(独自算出の注目度): 2.8304391396200064
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We analyze how large language models (LLMs) represent out-of-context words,
investigating their reliance on the given context to capture their semantics.
Our likelihood-guided text perturbations reveal a correlation between token
likelihood and attention values in transformer-based language models. Extensive
experiments reveal that unexpected tokens cause the model to attend less to the
information coming from themselves to compute their representations,
particularly at higher layers. These findings have valuable implications for
assessing the robustness of LLMs in real-world scenarios. Fully reproducible
codebase at https://github.com/Flegyas/AttentionLikelihood.
- Abstract(参考訳): 我々は、大言語モデル(LLM)が文脈外単語をどのように表現しているかを分析し、その意味を捉えるために、与えられた文脈への依存を調査する。
我々の可能性誘導テキスト摂動は、トランスフォーマーベース言語モデルにおけるトークン確率と注意値の相関関係を明らかにする。
広範な実験により、予期せぬトークンはモデルが自身から来る情報、特に上位層での表現を計算するのにあまり関与しないことが明らかになった。
これらの結果は,実世界のシナリオにおけるllmのロバスト性を評価する上で有用である。
完全な再現可能なコードベースはhttps://github.com/flegyas/attentionlikelihood。
関連論文リスト
- Characterizing Attribution and Fluency Tradeoffs for Retrieval-Augmented
Large Language Models [6.425088990363101]
本研究では, 大規模言語モデルにおけるフラレンシと帰属の関係について検討した。
より大きなモデルは、流布と帰属の両方において、より優れた結果をもたらす傾向があることを示す。
そこで本研究では,より小さなモデルで大きなモデルとのギャップを埋めることと,トップk検索のメリットを両立できるレシピを提案する。
論文 参考訳(メタデータ) (2023-02-11T02:43:34Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [77.67225514082953]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
語彙トークン上の結果の分布は直感的であり,豊富な意味情報を含んでいることを示す。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Learning Semantic Textual Similarity via Topic-informed Discrete Latent
Variables [17.57873577962635]
我々は、意味的テキスト類似性のためのトピックインフォームド離散潜在変数モデルを開発した。
我々のモデルはベクトル量子化による文対表現のための共有潜在空間を学習する。
我々のモデルは意味的テキスト類似性タスクにおいて、いくつかの強力な神経ベースラインを超えることができることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:09:58Z) - Syntax-guided Localized Self-attention by Constituency Syntactic
Distance [26.141356981833862]
本稿では,Transformerのための構文誘導型ローカライズ自己アテンションを提案する。
外部の選挙区から直接文法構造を組み込むことができる。
実験結果から,本モデルによる翻訳性能の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2022-10-21T06:37:25Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - Fusing Sentence Embeddings Into LSTM-based Autoregressive Language
Models [20.24851041248274]
本稿では,プレフィックス埋め込みを用いたLSTMに基づく自己回帰言語モデルを提案する。
融合は、異なるドメインからのデータセットへの転送後に保存される難易度(16.74$rightarrow$ 15.80)を確実に低下させるのに役立つ。
また,次の単語推定値と人間の読解時間とを相関させることにより,最も優れた融合モデルの評価を行った。
論文 参考訳(メタデータ) (2022-08-04T02:13:03Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。