Fugu-MT 論文翻訳(概要): The Logical Implication Steering Method for Conditional Interventions on Transformer Generation

論文の概要: The Logical Implication Steering Method for Conditional Interventions on Transformer Generation

arxiv url: http://arxiv.org/abs/2502.03618v1
Date: Wed, 05 Feb 2025 21:09:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-07 15:30:40.534887
Title: The Logical Implication Steering Method for Conditional Interventions on Transformer Generation
Title（参考訳）: 変圧器生成における条件付き干渉に対する論理的含意ステアリング法
Authors: Damjan Kalajdzievski,
Abstract要約: モデルに論理的含意の形式を構築するために'線形表現仮説'を活用する方法を示す。我々の方法である論理的含意モデルステアリング(LIMS)は、新しい手作業による推論機能を解き放つ。
参考スコア（独自算出の注目度）: 0.7252027234425334
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The field of mechanistic interpretability in pre-trained transformer models has demonstrated substantial evidence supporting the ''linear representation hypothesis'', which is the idea that high level concepts are encoded as vectors in the space of activations of a model. Studies also show that model generation behavior can be steered toward a given concept by adding the concept's vector to the corresponding activations. We show how to leverage these properties to build a form of logical implication into models, enabling transparent and interpretable adjustments that induce a chosen generation behavior in response to the presence of any given concept. Our method, Logical Implication Model Steering (LIMS), unlocks new hand engineered reasoning capabilities by integrating neuro-symbolic logic into pre-trained transformer models.
Abstract（参考訳）: 事前学習された変圧器モデルにおける機械論的解釈可能性の分野は、高次概念がモデルの活性化空間におけるベクトルとして符号化されるという「線形表現仮説」を支持する重要な証拠を証明している。また、モデル生成の振る舞いは、対応するアクティベーションに概念のベクトルを追加することによって、与えられた概念に向けて制御できることを示す。これらの特性を利用してモデルに論理的含意を組み込む方法を示し、任意の概念の存在に応じて選択された生成挙動を誘導する透過的かつ解釈可能な調整を可能にする。我々の手法である論理的含意モデルステアリング(LIMS)は、ニューロシンボリック論理を事前学習されたトランスフォーマーモデルに統合することにより、手作業による推論機能を解放する。

関連論文リスト

A Free Probabilistic Framework for Analyzing the Transformer-based Language Models [19.78896931593813]
本稿では,自由確率理論を用いたトランスフォーマーに基づく言語モデル解析のための形式的演算子理論フレームワークを提案する。この研究は、理論上は大きな言語モデルにおける構造力学に関する原則的視点を提供する。
論文参考訳（メタデータ） (2025-06-19T19:13:02Z)
I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文参考訳（メタデータ） (2025-03-12T01:21:17Z)
Neural ODE Transformers: Analyzing Internal Dynamics and Adaptive Fine-tuning [30.781578037476347]
高度にフレキシブルな非自律型ニューラル常微分方程式(ODE)を用いたトランスフォーマーアーキテクチャのモデリング手法を提案する。提案モデルでは,ニューラルネットワークによる注目度とフィードフォワードブロックの重みをパラメータ化し,これらの重みを連続層インデックスの関数として表現する。我々のニューラルODE変換器は、さまざまな構成やデータセットにわたるバニラ変換器に匹敵するパフォーマンスを示す。
論文参考訳（メタデータ） (2025-03-03T09:12:14Z)
Concept Layers: Enhancing Interpretability and Intervenability via LLM Conceptualization [2.163881720692685]
本稿では,概念層をアーキテクチャに組み込むことにより,解釈可能性とインターベンタビリティを既存モデルに組み込む新しい手法を提案する。我々のアプローチは、モデルの内部ベクトル表現を、再構成してモデルにフィードバックする前に、概念的で説明可能なベクトル空間に投影する。複数のタスクにまたがるCLを評価し、本来のモデルの性能と合意を維持しつつ、意味のある介入を可能にしていることを示す。
論文参考訳（メタデータ） (2025-02-19T11:10:19Z)
Analyzing Fine-tuning Representation Shift for Multimodal LLMs Steering alignment [53.90425382758605]
モデルの内部構造が微調整によってどのように変化し、新しいマルチモーダルタスクを専門化するかを示す。我々の研究は、微調整によってマルチモーダル表現がどのように進化するかに光を当て、マルチモーダルタスクにおけるモデル適応を解釈するための新しい視点を提供する。
論文参考訳（メタデータ） (2025-01-06T13:37:13Z)
Sparse autoencoders reveal selective remapping of visual concepts during adaptation [54.82630842681845]
特定の目的のために基礎モデルを適用することは、機械学習システムを構築するための標準的なアプローチとなっている。 PatchSAEと呼ばれるCLIPビジョントランスのための新しいスパースオートエンコーダ(SAE)を開発し、解釈可能な概念を抽出する。
論文参考訳（メタデータ） (2024-12-06T18:59:51Z)
The Buffer Mechanism for Multi-Step Information Reasoning in Language Models [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。本研究では,トランスフォーマーモデルが垂直思考戦略を採用するメカニズムを解明するために,シンボリックデータセットを構築した。我々は,GPT-2モデルに必要なトレーニング時間を75%削減し,モデルの推論能力を高めるために,ランダムな行列ベースアルゴリズムを提案した。
論文参考訳（メタデータ） (2024-05-24T07:41:26Z)
Attention Mechanisms Don't Learn Additive Models: Rethinking Feature Importance for Transformers [12.986126243018452]
変換器は、特徴属性に使用される線形または付加的な代理モデルを表現することができず、構造的に不可能である。我々は,変圧器フレームワークに特化して設計された新しい代理モデルであるSoftmax-Linked Additive Log Odds Model (SLALOM)を紹介する。 SLALOMが競合する代理モデルよりもはるかに高い忠実さで説明できることを示すことで、SLALOMの独特な効率品質曲線を強調した。
論文参考訳（メタデータ） (2024-05-22T11:14:00Z)
On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文参考訳（メタデータ） (2024-03-06T17:17:36Z)
Probabilistic Topic Modelling with Transformer Representations [0.9999629695552195]
トランスフォーマー表現型ニューラルトピックモデル(TNTM)を提案する。このアプローチは、完全に確率論的モデリングを伴うトランスフォーマー埋め込みに基づくトピックの強力で汎用的な概念を統一する。実験の結果,提案手法は組込みコヒーレンスの観点から,様々な最先端手法に匹敵する結果が得られることがわかった。
論文参考訳（メタデータ） (2024-03-06T14:27:29Z)
Identifying Linear Relational Concepts in Large Language Models [16.917379272022064]
トランスフォーマー言語モデル(LM)は、隠れたアクティベーションの潜在空間における方向として概念を表現することが示されている。本稿では,リレーショナル・リレーショナル・コンセプト (LRC) と呼ばれる手法を提案する。
論文参考訳（メタデータ） (2023-11-15T14:01:41Z)
Generating by Understanding: Neural Visual Generation with Logical Symbol Groundings [23.85885099230917]
このような論理積分モデルを構築するために,Abductive Visual Generation (AbdGen) アプローチを提案する。本手法は, 論理的推論システムと様々なニューラル生成モデルを統合するために応用できることを実験的に示す。
論文参考訳（メタデータ） (2023-10-26T15:00:21Z)
A Recursive Bateson-Inspired Model for the Generation of Semantic Formal Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文参考訳（メタデータ） (2023-07-16T15:59:13Z)
Abstractors and relational cross-attention: An inductive bias for explicit relational reasoning in Transformers [4.562331048595688]
抽象モジュールと呼ばれる新しいモジュールを通じて明示的なリレーショナル推論を可能にするトランスフォーマーの拡張が提案されている。 Abstractorの中核には、リレーショナル・クロスアテンション(relational cross-attention)と呼ばれる注意の亜種がある。このアプローチは、関係情報をオブジェクトレベルの特徴から切り離す関係学習のためのアーキテクチャ的帰納的バイアスによって動機付けられます。
論文参考訳（メタデータ） (2023-04-01T01:49:08Z)
Log-linear Guardedness and its Implications [116.87322784046926]
線形性を仮定する神経表現から人間の解釈可能な概念を消去する方法は、抽出可能で有用であることが判明した。この研究は、対数線ガードネスの概念を、敵が表現から直接その概念を予測することができないものとして正式に定義している。バイナリの場合、ある仮定の下では、下流の対数線形モデルでは消去された概念を復元できないことを示す。
論文参考訳（メタデータ） (2022-10-18T17:30:02Z)
Explainability in Process Outcome Prediction: Guidelines to Obtain Interpretable and Faithful Models [77.34726150561087]
本稿では、プロセス結果予測の分野における説明可能性モデルと説明可能性モデルの忠実性を通して、説明可能性を定義する。本稿では,イベントログの仕様に基づいて適切なモデルを選択することのできる,X-MOPというガイドラインのセットを提案する。
論文参考訳（メタデータ） (2022-03-30T05:59:50Z)
Transformer-based Conditional Variational Autoencoder for Controllable Story Generation [39.577220559911055]
ニューラルストーリー生成のための大規模潜時変数モデル (LVM) を, 生成効率と制御性という2つのスレッドで検討した。我々は、トランスフォーマーの時代において、本質的に表現学習の力である潜在変数モデリングを復活させることを提唱する。具体的には,遅延表現ベクトルをTransformerベースの事前学習アーキテクチャと統合し,条件付き変分オートエンコーダ(CVAE)を構築する。
論文参考訳（メタデータ） (2021-01-04T08:31:11Z)
Exploring End-to-End Differentiable Natural Logic Modeling [21.994060519995855]
ニューラルネットワークに自然言語を統合する、エンドツーエンドでトレーニングされた差別化可能なモデルについて検討する。提案モデルでは,モジュールネットワークを用いて自然言語操作をモデル化し,メモリコンポーネントで拡張してコンテキスト情報をモデル化する。
論文参考訳（メタデータ） (2020-11-08T18:18:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。