Fugu-MT 論文翻訳(概要): Identifying Semantic Induction Heads to Understand In-Context Learning

論文の概要: Identifying Semantic Induction Heads to Understand In-Context Learning

arxiv url: http://arxiv.org/abs/2402.13055v1
Date: Tue, 20 Feb 2024 14:43:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 14:55:36.983060
Title: Identifying Semantic Induction Heads to Understand In-Context Learning
Title（参考訳）: 文脈学習の理解のための意味誘導頭部の同定
Authors: Jie Ren, Qipeng Guo, Hang Yan, Dongrui Liu, Xipeng Qiu, Dahua Lin
Abstract要約: 自然言語に存在するトークン間の2種類の関係を,注目ヘッドが符号化するかどうかを検討する。特定の注意ヘッドは、ヘッドトークンに出席する際、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。
参考スコア（独自算出の注目度）: 98.43943823238907
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although large language models (LLMs) have demonstrated remarkable performance, the lack of transparency in their inference logic raises concerns about their trustworthiness. To gain a better understanding of LLMs, we conduct a detailed analysis of the operations of attention heads and aim to better understand the in-context learning of LLMs. Specifically, we investigate whether attention heads encode two types of relationships between tokens present in natural languages: the syntactic dependency parsed from sentences and the relation within knowledge graphs. We find that certain attention heads exhibit a pattern where, when attending to head tokens, they recall tail tokens and increase the output logits of those tail tokens. More crucially, the formulation of such semantic induction heads has a close correlation with the emergence of the in-context learning ability of language models. The study of semantic attention heads advances our understanding of the intricate operations of attention heads in transformers, and further provides new insights into the in-context learning of LLMs.
Abstract（参考訳）: 大きな言語モデル(LLM)は目覚ましい性能を示しているが、推論ロジックにおける透明性の欠如は、彼らの信頼性に対する懸念を引き起こす。 LLMのより深い理解を得るために、我々は注意頭の動きを詳細に分析し、LLMの文脈内学習をより深く理解することを目的としている。具体的には,自然言語に存在するトークン間の2種類の関係,すなわち文から解析された構文依存性と知識グラフ内の関係を,注目ヘッドが符号化するかどうかを検討する。特定の注意ヘッドは、ヘッドトークンに出席するとき、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。さらに重要なことは、このような意味誘導ヘッドの定式化は、言語モデルの文脈内学習能力の出現と密接に相関している。意味的注意ヘッドの研究は、トランスフォーマーにおける注意ヘッドの複雑な操作の理解を深め、さらにllmの文脈内学習に関する新たな洞察を提供する。

関連論文リスト

Graph Representations for Reading Comprehension Analysis using Large Language Model and Eye-Tracking Biomarker [9.284765805642326]
理解を読むことは人間の認知発達の基本的なスキルである。人間とLarge Language Models(LLM)がさまざまな文脈で言語をどのように理解しているかを比較する必要性が高まっている。
論文参考訳（メタデータ） (2025-07-16T07:15:59Z)
LLM Inference Enhanced by External Knowledge: A Survey [16.319049759753106]
本研究では,外部知識を用いた大規模言語モデル(LLM)の強化戦略について検討する。比較分析では、解釈可能性、スケーラビリティ、パフォーマンスのトレードオフを強調しています。
論文参考訳（メタデータ） (2025-05-30T09:08:51Z)
Rethinking the Understanding Ability across LLMs through Mutual Information [22.16559695572131]
入力文とその潜在表現(文レベルMI)の間のMIとしての理解を形式化する。文レベルMIをトークンと文埋め込みの間でトークンレベルMIに分解し、これらの測度を接続する理論的境界を確立する。我々は、この回復可能性タスクを実装し、異なる言語モデル間でMIを相対的に測定する。
論文参考訳（メタデータ） (2025-05-25T22:31:24Z)
How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文参考訳（メタデータ） (2025-04-10T16:14:55Z)
Semantic Mastery: Enhancing LLMs with Advanced Natural Language Understanding [0.0]
本稿では,より高度なNLU技術を用いて,大規模言語モデル(LLM)を進化させる最先端の方法論について論じる。我々は、構造化知識グラフ、検索強化生成(RAG)、および人間レベルの理解とモデルにマッチする微調整戦略の利用を分析する。
論文参考訳（メタデータ） (2025-04-01T04:12:04Z)
How LLMs Learn: Tracing Internal Representations with Sparse Autoencoders [30.36521888592164]
大規模言語モデル(LLM)は、目覚ましい多言語機能と幅広い知識を示している。 LLMの内部表現にエンコードされた情報が、トレーニングプロセス中にどのように進化するかを分析する。
論文参考訳（メタデータ） (2025-03-09T02:13:44Z)
Unveiling Visual Perception in Language Models: An Attention Head Analysis Approach [33.20992355312175]
MLLM(Multimodal Large Language Models)の最近の進歩は、視覚的理解の著しい進歩を示している。本稿では,4つのモデルファミリーと4つのモデルスケールにまたがる系統的な調査により,この問題に対処することを目的とする。分析の結果,これらの注意ヘッドの挙動,注意重みの分布,および入力中の視覚的トークンへの集中との間には強い相関関係が認められた。
論文参考訳（メタデータ） (2024-12-24T02:31:24Z)
Interpreting Context Look-ups in Transformers: Investigating Attention-MLP Interactions [19.33740818235595]
本研究では,大規模言語モデル(LLM)において,注意頭と次点ニューロンがどのように相互作用し,新たな単語を予測するかを検討する。以上の結果から,注意頭は特定の文脈を認識し,それに応じてトークン予測ニューロンを活性化することが明らかとなった。
論文参考訳（メタデータ） (2024-02-23T02:15:47Z)
From Heuristic to Analytic: Cognitively Motivated Strategies for Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文参考訳（メタデータ） (2023-10-24T19:46:04Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)
IERL: Interpretable Ensemble Representation Learning -- Combining CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文参考訳（メタデータ） (2023-06-24T05:02:34Z)
In-Context Analogical Reasoning with Pre-Trained Language Models [10.344428417489237]
我々は、AIシステムにおけるアナロジーを支援するために、直感的な言語ベースの抽象化の使用について検討する。具体的には,大規模事前学習言語モデル(PLM)を視覚的Raven's Progressive Matrices(RPM)に適用する。 PLMはゼロショットリレーショナル推論に顕著な能力を示し、人間のパフォーマンスを超え、教師付き視覚ベースの手法に近づいた。
論文参考訳（メタデータ） (2023-05-28T04:22:26Z)
Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文参考訳（メタデータ） (2023-05-24T06:41:09Z)
ChatABL: Abductive Learning via Natural Language Interaction with ChatGPT [72.83383437501577]
大規模言語モデル(LLM)は、最近数学的な能力において大きな可能性を証明している。 LLMは現在、認識、言語理解、推論能力のブリッジングに困難を抱えている。本稿では, LLMを帰納学習フレームワークに統合する新しい手法を提案する。
論文参考訳（メタデータ） (2023-04-21T16:23:47Z)
ERICA: Improving Entity and Relation Understanding for Pre-trained Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文参考訳（メタデータ） (2020-12-30T03:35:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。