Fugu-MT 論文翻訳(概要): Not All Language Model Features Are Linear

論文の概要: Not All Language Model Features Are Linear

arxiv url: http://arxiv.org/abs/2405.14860v2
Date: Tue, 08 Oct 2024 14:23:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 02:20:27.14417
Title: Not All Language Model Features Are Linear
Title（参考訳）: すべての言語モデル機能が線形であるとは限らない
Authors: Joshua Engels, Eric J. Michaud, Isaac Liao, Wes Gurnee, Max Tegmark,
Abstract要約: 独立的・非共起的な低次元特徴に分解できるかどうかに基づいて、既約多次元特徴の厳密な定義を開発する。スパースオートエンコーダを用いて, GPT-2 と Mistral 7B の多次元特徴を自動的に検出する。我々は、これらの正確な円が、その年の週と月におけるモジュラー算術に関わる計算問題を解くのに使用されるタスクを特定する。
参考スコア（独自算出の注目度）: 8.577217344304072
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work has proposed that language models perform computation by manipulating one-dimensional representations of concepts ("features") in activation space. In contrast, we explore whether some language model representations may be inherently multi-dimensional. We begin by developing a rigorous definition of irreducible multi-dimensional features based on whether they can be decomposed into either independent or non-co-occurring lower-dimensional features. Motivated by these definitions, we design a scalable method that uses sparse autoencoders to automatically find multi-dimensional features in GPT-2 and Mistral 7B. These auto-discovered features include strikingly interpretable examples, e.g. circular features representing days of the week and months of the year. We identify tasks where these exact circles are used to solve computational problems involving modular arithmetic in days of the week and months of the year. Next, we provide evidence that these circular features are indeed the fundamental unit of computation in these tasks with intervention experiments on Mistral 7B and Llama 3 8B. Finally, we find further circular representations by breaking down the hidden states for these tasks into interpretable components, and we examine the continuity of the days of the week feature in Mistral 7B.
Abstract（参考訳）: 近年の研究では、言語モデルがアクティベーション空間における概念の1次元表現(「機能」)を操作して計算を行うことが提案されている。対照的に、いくつかの言語モデル表現が本質的に多次元であるかどうかを考察する。まず、独立的・非共起的な低次元特徴に分解できるかどうかに基づいて、既約多次元特徴を厳密に定義することから始める。これらの定義により,GPT-2とMistral 7Bの多次元特徴を自動的に見つけるためにスパースオートエンコーダを用いたスケーラブルな手法を設計する。これらの自動発見機能には、著しく解釈可能な例、例えば1週間と数ヶ月の日を表す円形機能などが含まれる。我々は、これらの正確な円が、その年の週と月におけるモジュラー算術に関わる計算問題を解くのに使用されるタスクを特定する。次に、これらの円形特徴が、Mistral 7BとLlama 3 8Bの介入実験によるこれらのタスクにおける計算の基本単位であることを示す。最後に、これらのタスクの隠された状態を解釈可能な構成要素に分解し、さらに円状の表現を見つけ、Mistral 7Bにおける週の特徴の連続性を検証した。

関連論文リスト

Replacing thinking with tool usage enables reasoning in small language models [2.357055571094446]
近年の進歩は、推論時間とトレーニング時間における計算のスケールアップに基づく、新しい機械学習パラダイムを確立している。本稿では,これらのトークンをステートフルツールを用いたマルチターンインタラクショントレースとしてフォーマットすることを提案する。各ターンで、ツールの新しい状態がモデルのコンテキストに追加され、そのジョブはカスタムDSLを介してツールを制御するのに必要なトークンを生成する。
論文参考訳（メタデータ） (2025-07-07T14:49:18Z)
The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
The Origins of Representation Manifolds in Large Language Models [52.68554895844062]
表現空間におけるコサイン類似性は、最短のオンマンフォールド経路を通して特徴の内在幾何学を符号化することができることを示す。理論の臨界仮定と予測は、大きな言語モデルのテキスト埋め込みとトークンアクティベーションに基づいて検証される。
論文参考訳（メタデータ） (2025-05-23T13:31:22Z)
Self-Supervised Learning for Ordered Three-Dimensional Structures [0.0]
近年の研究では、自己教師型タスクで大規模言語モデルをトレーニングし、それらのモデルを微調整して、トランスファーラーニング環境で新しいタスクを完了させることが強力なアイデアであることが証明されている。本研究では,秩序な3次元構造の大規模研究に適した幾何的タスクの集合を定式化する。我々は、幾何学的代数に基づく深部回転・置換同変ニューラルネットワークを構築し、これらを用いて、理想化された3次元構造とシミュレートされた3次元構造の両方においてこれらの課題を解決する。
論文参考訳（メタデータ） (2024-11-22T02:24:15Z)
Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。提案手法は,複数のデータセットに対して新しい最先端性能を設定できることを示す。
論文参考訳（メタデータ） (2024-07-10T15:36:00Z)
Latent Functional Maps: a spectral framework for representation alignment [34.20582953800544]
表現学習コミュニティに多目的フレームワークを導入し、(i)異なる空間を解釈可能な方法で比較し、その内在的類似性を測定すること、(ii)教師なしと弱教師付きの両方で対応性を見出すこと、(iii)異なる空間間の表現を効果的に伝達すること。我々は, 縫合作業から検索作業, および複数のモダリティに至るまで, 様々なアプリケーションにおいて, フレームワークを検証し, 表現アライメントのためのスウィスアームナイフとして機能することを示す。
論文参考訳（メタデータ） (2024-06-20T10:43:28Z)
Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文参考訳（メタデータ） (2024-03-28T17:56:07Z)
ShapeGrasp: Zero-Shot Task-Oriented Grasping with Large Language Models through Geometric Decomposition [8.654140442734354]
不慣れな物体のタスク指向の把握は、動的家庭環境におけるロボットにとって必要なスキルである。本稿では,対象物体の幾何学的分解を簡単な凸形状に生かしたゼロショットタスク指向の把握手法を提案する。このアプローチでは、ゼロショットタスク指向の把握を容易にするために、最小限の必須情報(オブジェクト名と意図したタスク)を使用します。
論文参考訳（メタデータ） (2024-03-26T19:26:53Z)
FIND: A Function Description Benchmark for Evaluating Interpretability Methods [86.80718559904854]
本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。 FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
論文参考訳（メタデータ） (2023-09-07T17:47:26Z)
Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文参考訳（メタデータ） (2023-01-27T18:59:01Z)
Exploring Dimensionality Reduction Techniques in Multilingual Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文参考訳（メタデータ） (2022-04-18T17:20:55Z)
Self-Attention Neural Bag-of-Features [103.70855797025689]
我々は最近導入された2D-Attentionの上に構築し、注意学習方法論を再構築する。本稿では,関連情報を強調した2次元目視マスクを学習する機能・時間的アテンション機構を提案する。
論文参考訳（メタデータ） (2022-01-26T17:54:14Z)
Why you should learn functional basis [28.399668932184422]
広く用いられる選択は、スペクトル埋め込みを通じて3Dオブジェクトを符号化することであり、微分作用素(典型的にはラプラシアン)の固有函数の切り離された部分集合によって、その点で仮定される値に関連付ける。異なるアプリケーション向けの新しい、好ましい埋め込みを定義するいくつかの試みは、この10年でその光を見てきた。近年,ラプラシア固有関数の学習代用として,新たな傾向がみられた。同時に、多くの研究課題は未解決のままであり、新しい基底はLBO固有関数よりも優れているか、それらとどのように関連しているのか?
論文参考訳（メタデータ） (2021-12-14T10:44:10Z)
Inductive Biases and Variable Creation in Self-Attention Mechanisms [25.79946667926312]
この研究は自己アテンション加群の帰納バイアスの理論解析を提供する。私たちの焦点は、どの関数と長距離依存関係を表現したいかを明確に決めることです。我々の主な結果は、有界ノルムトランスフォーマー層がスパース変数を生成することを示している。
論文参考訳（メタデータ） (2021-10-19T16:36:19Z)
Spatiotemporal Deformable Models for Long-Term Complex Activity Detection [23.880673582575856]
自動車や手術ロボットなどの自律システムでは、長期的な複雑な活動認識が不可欠です。現在のほとんどのメソッドは、短期的なアクション/アクティビティや、数フレームまたは秒間しか続かないアクションの組み合わせを単にローカライズするように設計されている。本フレームワークは, (i) 動作検出, (ii) 変形可能な部品形状のモデル化, (iii) 空間的機構の3つの主要な構成要素から構成される。
論文参考訳（メタデータ） (2021-04-16T16:05:34Z)
Learning outside the Black-Box: The pursuit of interpretable models [78.32475359554395]
本稿では,任意の連続ブラックボックス関数の連続的大域的解釈を生成するアルゴリズムを提案する。我々の解釈は、その芸術の以前の状態から飛躍的な進歩を表している。
論文参考訳（メタデータ） (2020-11-17T12:39:44Z)
UNIPoint: Universally Approximating Point Processes Intensities [125.08205865536577]
学習可能な関数のクラスが任意の有効な強度関数を普遍的に近似できることを示す。ニューラルポイントプロセスモデルであるUNIPointを実装し,各イベントの基底関数の和をパラメータ化するために,リカレントニューラルネットワークを用いた。
論文参考訳（メタデータ） (2020-07-28T09:31:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。