論文の概要: Attention-likelihood relationship in transformers
- arxiv url: http://arxiv.org/abs/2303.08288v1
- Date: Wed, 15 Mar 2023 00:23:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 15:14:06.782625
- Title: Attention-likelihood relationship in transformers
- Title(参考訳): 変圧器の注意関係
- Authors: Valeria Ruscio, Valentino Maiorca, Fabrizio Silvestri
- Abstract要約: 我々は、大言語モデル(LLM)が文脈外単語をどのように表現しているかを分析し、その意味を捉えるために、与えられた文脈への依存を調査する。
我々の可能性誘導型テキスト摂動は、トランスフォーマーベース言語モデルにおけるトークン確率と注意値の相関関係を明らかにする。
- 参考スコア(独自算出の注目度): 2.8304391396200064
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We analyze how large language models (LLMs) represent out-of-context words,
investigating their reliance on the given context to capture their semantics.
Our likelihood-guided text perturbations reveal a correlation between token
likelihood and attention values in transformer-based language models. Extensive
experiments reveal that unexpected tokens cause the model to attend less to the
information coming from themselves to compute their representations,
particularly at higher layers. These findings have valuable implications for
assessing the robustness of LLMs in real-world scenarios. Fully reproducible
codebase at https://github.com/Flegyas/AttentionLikelihood.
- Abstract(参考訳): 我々は、大言語モデル(LLM)が文脈外単語をどのように表現しているかを分析し、その意味を捉えるために、与えられた文脈への依存を調査する。
我々の可能性誘導テキスト摂動は、トランスフォーマーベース言語モデルにおけるトークン確率と注意値の相関関係を明らかにする。
広範な実験により、予期せぬトークンはモデルが自身から来る情報、特に上位層での表現を計算するのにあまり関与しないことが明らかになった。
これらの結果は,実世界のシナリオにおけるllmのロバスト性を評価する上で有用である。
完全な再現可能なコードベースはhttps://github.com/flegyas/attentionlikelihood。
関連論文リスト
- Rolling the DICE on Idiomaticity: How LLMs Fail to Grasp Context [12.781022584125925]
我々は、LLMが文脈を効果的に利用して慣用的意味を曖昧にすることができるかどうかをテストするために設計された、新しい対照データセットを構築した。
以上の結果から, LLMは周囲の状況に適応する必要がある場合, 慣用性の解決に失敗することが多いことが判明した。
コードとデータセットを公開しています。
論文 参考訳(メタデータ) (2024-10-21T14:47:37Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Evaluating Transformer's Ability to Learn Mildly Context-Sensitive
Languages [6.227678387562755]
近年の研究では、非正規言語や文脈自由言語でさえ、自己意識は理論的に学習に限られていることが示唆されている。
様々な複雑さの文脈に敏感な言語を学習するトランスフォーマーの能力をテストする。
分析の結果,学習した自己注意パターンと表現が依存性関係をモデル化し,計数行動を示した。
論文 参考訳(メタデータ) (2023-09-02T08:17:29Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Characterizing Attribution and Fluency Tradeoffs for Retrieval-Augmented
Large Language Models [6.425088990363101]
本研究では, 大規模言語モデルにおけるフラレンシと帰属の関係について検討した。
より大きなモデルは、流布と帰属の両方において、より優れた結果をもたらす傾向があることを示す。
そこで本研究では,より小さなモデルで大きなモデルとのギャップを埋めることと,トップk検索のメリットを両立できるレシピを提案する。
論文 参考訳(メタデータ) (2023-02-11T02:43:34Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Learning Semantic Textual Similarity via Topic-informed Discrete Latent
Variables [17.57873577962635]
我々は、意味的テキスト類似性のためのトピックインフォームド離散潜在変数モデルを開発した。
我々のモデルはベクトル量子化による文対表現のための共有潜在空間を学習する。
我々のモデルは意味的テキスト類似性タスクにおいて、いくつかの強力な神経ベースラインを超えることができることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:09:58Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。