Fugu-MT 論文翻訳(概要): Identifying Query-Relevant Neurons in Large Language Models for Long-Form Texts

論文の概要: Identifying Query-Relevant Neurons in Large Language Models for Long-Form Texts

arxiv url: http://arxiv.org/abs/2406.10868v2
Date: Mon, 19 Aug 2024 09:46:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 02:28:42.153822
Title: Identifying Query-Relevant Neurons in Large Language Models for Long-Form Texts
Title（参考訳）: 長文用大言語モデルにおけるクエリ関連ニューロンの同定
Authors: Lihu Chen, Adam Dejl, Francesca Toni,
Abstract要約: 本稿では,大規模言語モデルにおけるクエリ関連ニューロンの同定が可能な,アーキテクチャに依存しない新しいフレームワークを提案する。検出されたニューロンの知識編集およびニューロンによる予測への応用の可能性を示す。
参考スコア（独自算出の注目度）: 14.69046890281591
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) possess vast amounts of knowledge within their parameters, prompting research into methods for locating and editing this knowledge. Previous work has largely focused on locating entity-related (often single-token) facts in smaller models. However, several key questions remain unanswered: (1) How can we effectively locate query-relevant neurons in contemporary autoregressive LLMs, such as Llama and Mistral? (2) How can we address the challenge of long-form text generation? (3) Are there localized knowledge regions in LLMs? In this study, we introduce Query-Relevant Neuron Cluster Attribution (QRNCA), a novel architecture-agnostic framework capable of identifying query-relevant neurons in LLMs. QRNCA allows for the examination of long-form answers beyond triplet facts by employing the proxy task of multi-choice question answering. To evaluate the effectiveness of our detected neurons, we build two multi-choice QA datasets spanning diverse domains and languages. Empirical evaluations demonstrate that our method outperforms baseline methods significantly. Further, analysis of neuron distributions reveals the presence of visible localized regions, particularly within different domains. Finally, we show potential applications of our detected neurons in knowledge editing and neuron-based prediction.
Abstract（参考訳）: 大規模言語モデル (LLM) はそのパラメータ内で膨大な量の知識を保有しており、この知識を探索し、編集する手法の研究を促す。これまでの研究は、小さなモデルでエンティティ関連の事実(多くの場合、シングルトークン)を見つけることに重点を置いてきた。 1)LlamaやMistralのような現代自己回帰LDMにおいて、クエリ関連ニューロンを効果的に見つけるにはどうすればよいのか? (2)長文テキスト生成の課題にどう対処すればよいか? (3)LLMに局所的な知識領域はあるか? 本研究では,LLMにおけるクエリ関連ニューロンを識別できるアーキテクチャに依存しない新しいフレームワークであるQRNCA(Query-Relevant Neuron Cluster Attribution)を紹介する。 QRNCAは、多選択質問応答のプロキシタスクを利用することで、三重項事実を超えた長文回答の検証を可能にする。検出されたニューロンの有効性を評価するため、様々なドメインや言語にまたがる2つの多色QAデータセットを構築した。実験により,本手法がベースライン法を著しく上回ることを示す。さらに、ニューロンの分布の解析により、特に異なる領域における可視的な局在領域の存在が明らかになる。最後に,検出されたニューロンの知識編集およびニューロンによる予測への応用の可能性を示す。

関連論文リスト

How does Alignment Enhance LLMs' Multilingual Capabilities? A Language Neurons Perspective [64.79894853375478]
本稿では,言語ニューロン(言語特異的ニューロンや言語関連ニューロンを含む)と言語非依存ニューロンを検出する,より微細なニューロン識別アルゴリズムを提案する。異なる種類のニューロンの分布特性に基づいて、多言語推論のためのLCMの内部過程を4つの部分に分割する。我々は、異なる種類のニューロンに焦点を合わせ、その前後のモデルを体系的に分析する。
論文参考訳（メタデータ） (2025-05-27T17:59:52Z)
Reasoning Capabilities and Invariability of Large Language Models [49.23570751696334]
我々は,大規模言語モデルの推論能力に関する総合的な分析を行うことを目標としている。我々は、浅い論理的推論を要求する一連の単純な推論質問を含む新しいベンチマークデータセットを導入する。ゼロショットと少数ショットを含む実証分析では、70億以上のパラメータを持つLDMがゼロショット設定でより優れた性能を発揮する一方で、改善の余地がまだ大きいことが示されている。
論文参考訳（メタデータ） (2025-05-01T18:12:30Z)
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。最先端のMLLMのベンチマークでは、ピーク性能は53%であった。チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文参考訳（メタデータ） (2025-03-17T17:33:10Z)
The Knowledge Microscope: Features as Better Analytical Lenses than Neurons [15.883209651151155]
言語モデル(LM)における事実知識のメカニズム理解のための分析単位としてのニューロンの利用に関する研究本稿では、まず、スパースオートエンコーダ(SAE)がニューロンを機能に分解し、代替分析ユニットとして機能することを検証するための予備実験を行う。
論文参考訳（メタデータ） (2025-02-18T03:09:55Z)
One Mind, Many Tongues: A Deep Dive into Language-Agnostic Knowledge Neurons in Large Language Models [19.58983929459173]
大規模言語モデル(LLM)は大規模コーパスでの自己教師付き事前学習を通じて、膨大な量の事実知識を学習してきた。 LLMはまた、学習した知識を複数の言語で表現できる優れた多言語機能を示した。
論文参考訳（メタデータ） (2024-11-26T13:03:49Z)
Multilingual Knowledge Editing with Language-Agnostic Factual Neurons [98.73585104789217]
大規模言語モデル(LLM)が多言語事実知識をどのように表すかを検討する。異なる言語における同じ事実知識は一般的に、言語に依存しない事実ニューロンと呼ばれる共有ニューロンの集合を活性化する。そこで本研究では,言語非依存のFactual Neurons (LAFN) を探索・修正し,多言語知識を同時に編集する新しいMKE法を提案する。
論文参考訳（メタデータ） (2024-06-24T08:06:56Z)
Sharing Matters: Analysing Neurons Across Languages and Tasks in LLMs [70.3132264719438]
我々は,タスクや言語間でニューロンの活性化がどのように共有されるかを調べることで,研究ギャップを埋めることを目指している。我々は、異なる言語にまたがる特定の入力に対する応答に基づいて、ニューロンを4つの異なるカテゴリに分類する。分析の結果, (i) ニューロン共有のパターンはタスクや例の特徴に大きく影響され, (ii) ニューロン共有は言語類似性に完全には対応しない, (iii) 共有ニューロンは応答の生成において重要な役割を担っている。
論文参考訳（メタデータ） (2024-06-13T16:04:11Z)
M-QALM: A Benchmark to Assess Clinical Reading Comprehension and Knowledge Recall in Large Language Models via Question Answering [14.198330378235632]
我々は,3つのジェネラリストと3つの専門的なバイオメディカルサブドメインにおいて,22のデータセットに関する大規模な実験研究を行うために,複数選択と抽象質問応答を用いた。 15個のLLMの性能の多面的解析により、リコールや理解の向上につながる命令チューニングなどの成功要因が明らかになった。最近提案されたドメイン適応モデルには十分な知識が欠如している可能性があるが、収集した医療知識データセットを直接微調整することは、奨励的な結果を示している。我々は、必要な知識を単に思い出し、提示された知識と統合するモデルの能力の間に大きなギャップがあることを明らかにする、スキル指向手動エラー解析で定量的結果を補完する。
論文参考訳（メタデータ） (2024-06-06T02:43:21Z)
Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文参考訳（メタデータ） (2024-05-26T22:30:29Z)
Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。 LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文参考訳（メタデータ） (2024-02-26T09:36:05Z)
Unveiling A Core Linguistic Region in Large Language Models [49.860260050718516]
本稿では,脳局在化をプロトタイプとして用いた類似研究を行う。我々は、言語能力に対応する大規模言語モデルにおいて、中核領域を発見した。我々は,言語能力の向上が必ずしもモデルの知識レベルの向上に伴わないことを観察する。
論文参考訳（メタデータ） (2023-10-23T13:31:32Z)
Discovering Salient Neurons in Deep NLP Models [31.18937787704794]
本稿では,モデル内のサルエントニューロンを抽出する言語相関解析法を提案する。我々のデータ駆動量分析は興味深い発見を照らす。我々のコードはNeuroXツールキットの一部として公開されています。
論文参考訳（メタデータ） (2022-06-27T13:31:49Z)
Scalable Query Answering under Uncertainty to Neuroscientific Ontological Knowledge: The NeuroLang Approach [2.216657815393579]
神経科学の研究者たちは、脳を研究するためのデータセットが増えている。現在、不確実性の下でリッチな異種データのコレクションにアクセスするための統一されたフレームワークは存在しない。我々は,既存のルール,確率的不確実性,および非常に大規模なデータセット上でのトラクタブルなクエリ応答を保証するためのビルトイン機構を備えたオントロジー言語であるNeuroLangを提案する。
論文参考訳（メタデータ） (2022-02-23T07:34:03Z)
Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文参考訳（メタデータ） (2020-06-11T17:29:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。