Fugu-MT 論文翻訳(概要): Attention-likelihood relationship in transformers

論文の概要: Attention-likelihood relationship in transformers

arxiv url: http://arxiv.org/abs/2303.08288v1
Date: Wed, 15 Mar 2023 00:23:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-16 15:14:06.782625
Title: Attention-likelihood relationship in transformers
Title（参考訳）: 変圧器の注意関係
Authors: Valeria Ruscio, Valentino Maiorca, Fabrizio Silvestri
Abstract要約: 我々は、大言語モデル(LLM)が文脈外単語をどのように表現しているかを分析し、その意味を捉えるために、与えられた文脈への依存を調査する。我々の可能性誘導型テキスト摂動は、トランスフォーマーベース言語モデルにおけるトークン確率と注意値の相関関係を明らかにする。
参考スコア（独自算出の注目度）: 2.8304391396200064
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We analyze how large language models (LLMs) represent out-of-context words, investigating their reliance on the given context to capture their semantics. Our likelihood-guided text perturbations reveal a correlation between token likelihood and attention values in transformer-based language models. Extensive experiments reveal that unexpected tokens cause the model to attend less to the information coming from themselves to compute their representations, particularly at higher layers. These findings have valuable implications for assessing the robustness of LLMs in real-world scenarios. Fully reproducible codebase at https://github.com/Flegyas/AttentionLikelihood.
Abstract（参考訳）: 我々は、大言語モデル(LLM)が文脈外単語をどのように表現しているかを分析し、その意味を捉えるために、与えられた文脈への依存を調査する。我々の可能性誘導テキスト摂動は、トランスフォーマーベース言語モデルにおけるトークン確率と注意値の相関関係を明らかにする。広範な実験により、予期せぬトークンはモデルが自身から来る情報、特に上位層での表現を計算するのにあまり関与しないことが明らかになった。これらの結果は,実世界のシナリオにおけるllmのロバスト性を評価する上で有用である。完全な再現可能なコードベースはhttps://github.com/flegyas/attentionlikelihood。

関連論文リスト

Am I Blue or Is My Hobby Counting Teardrops? Expression Leakage in Large Language Models as a Symptom of Irrelevancy Disruption [32.655632394093345]
本稿では,大言語モデルが入力コンテキストと意味的に無関係な感傷的な表現を生成する新しい現象である式リークを導入する。実験の結果、モデルがパラメータ空間でスケールするにつれて、式リークはLLMファミリー内で減少することがわかった。さらに,本実験は, 負の感情が刺激によって注入されると, 肯定的な感情よりも生成過程が破壊され, 高い発現リーク率が生じることを示した。
論文参考訳（メタデータ） (2025-08-03T10:29:19Z)
Token Activation Map to Visually Explain Multimodal LLMs [23.774995444587667]
本稿では,文脈の干渉を軽減し,高品質なMLLM記述を実現するための因果推論手法を提案する。本稿では,トークン間の相互作用を考慮に入れたToken Activation Map (TAM) と呼ぶ。我々のTAM法は既存のSoTA法を著しく上回り、高品質な可視化結果を示す。
論文参考訳（メタデータ） (2025-06-29T14:50:45Z)
Counterfactual reasoning: an analysis of in-context emergence [49.58529868457226]
大規模ニューラルネットワークモデル(LM)は、文脈内学習において顕著な性能を示す。この研究は、言語モデルにおける文脈内対実的推論、すなわち仮説的シナリオの下での変化の結果を予測することを研究する。
論文参考訳（メタデータ） (2025-06-05T16:02:07Z)
Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文参考訳（メタデータ） (2025-05-27T16:24:02Z)
ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。 ExpliCa上で7つの商用およびオープンソース LLM をテストしました。驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文参考訳（メタデータ） (2025-02-21T14:23:14Z)
Can adversarial attacks by large language models be attributed? [1.3812010983144802]
敵の設定における大規模言語モデルからのアウトプットの寄与は、重要度が増大する可能性が高い重要な課題を示す。正規言語理論,特にゴールドが導入しアングルインが拡張した限界における言語識別を用いて,この帰属問題について検討する。以上の結果から,特定の言語クラスの識別不可能性から,特定のLLMに出力を確実に属性付けることは理論的には不可能であることが示唆された。
論文参考訳（メタデータ） (2024-11-12T18:28:57Z)
Rolling the DICE on Idiomaticity: How LLMs Fail to Grasp Context [12.781022584125925]
我々は、LLMが文脈を効果的に利用して慣用的意味を曖昧にすることができるかどうかをテストするために設計された、新しい対照データセットを構築した。以上の結果から, LLMは周囲の状況に適応する必要がある場合, 慣用性の解決に失敗することが多いことが判明した。コードとデータセットを公開しています。
論文参考訳（メタデータ） (2024-10-21T14:47:37Z)
Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文参考訳（メタデータ） (2024-05-10T17:11:31Z)
Evaluating Transformer's Ability to Learn Mildly Context-Sensitive Languages [6.227678387562755]
近年の研究では、非正規言語や文脈自由言語でさえ、自己意識は理論的に学習に限られていることが示唆されている。様々な複雑さの文脈に敏感な言語を学習するトランスフォーマーの能力をテストする。分析の結果,学習した自己注意パターンと表現が依存性関係をモデル化し,計数行動を示した。
論文参考訳（メタデータ） (2023-09-02T08:17:29Z)
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。自己監督評価と人監督評価との間には強い相関関係が認められた。
論文参考訳（メタデータ） (2023-06-23T17:59:09Z)
Understanding and Mitigating Spurious Correlations in Text Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文参考訳（メタデータ） (2023-05-23T03:55:50Z)
Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。 ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文参考訳（メタデータ） (2023-05-22T06:45:02Z)
Characterizing Attribution and Fluency Tradeoffs for Retrieval-Augmented Large Language Models [6.425088990363101]
本研究では, 大規模言語モデルにおけるフラレンシと帰属の関係について検討した。より大きなモデルは、流布と帰属の両方において、より優れた結果をもたらす傾向があることを示す。そこで本研究では,より小さなモデルで大きなモデルとのギャップを埋めることと,トップk検索のメリットを両立できるレシピを提案する。
論文参考訳（メタデータ） (2023-02-11T02:43:34Z)
What Are You Token About? Dense Retrieval as Distributions Over the Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文参考訳（メタデータ） (2022-12-20T16:03:25Z)
Did the Cat Drink the Coffee? Challenging Transformers with Generalized Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文参考訳（メタデータ） (2021-07-22T20:52:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。