論文の概要: Representational Analysis of Binding in Large Language Models
- arxiv url: http://arxiv.org/abs/2409.05448v2
- Date: Thu, 12 Sep 2024 01:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 11:22:09.151213
- Title: Representational Analysis of Binding in Large Language Models
- Title(参考訳): 大規模言語モデルにおける結合の表現論的解析
- Authors: Qin Dai, Benjamin Heinzerling, Kentaro Inui,
- Abstract要約: BI情報のプロトタイプをローカライズすることで,バインディングID機構の新たなビューを提供する。
サブスペース内の方向に沿って表現を編集する場合、LMは特定のエンティティを他の属性に結び付ける傾向にある。
- 参考スコア(独自算出の注目度): 21.567939573751254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity tracking is essential for complex reasoning. To perform in-context entity tracking, language models (LMs) must bind an entity to its attribute (e.g., bind a container to its content) to recall attribute for a given entity. For example, given a context mentioning ``The coffee is in Box Z, the stone is in Box M, the map is in Box H'', to infer ``Box Z contains the coffee'' later, LMs must bind ``Box Z'' to ``coffee''. To explain the binding behaviour of LMs, Feng and Steinhardt (2023) introduce a Binding ID mechanism and state that LMs use a abstract concept called Binding ID (BI) to internally mark entity-attribute pairs. However, they have not directly captured the BI determinant information from entity activations. In this work, we provide a novel view of the Binding ID mechanism by localizing the prototype of BI information. Specifically, we discover that there exists a low-rank subspace in the hidden state (or activation) of LMs, that primarily encodes the order of entity and attribute and which is used as the prototype of BI to causally determine the binding. To identify this subspace, we choose principle component analysis as our first attempt and it is empirically proven to be effective. Moreover, we also discover that when editing representations along directions in the subspace, LMs tend to bind a given entity to other attributes accordingly. For example, by patching activations along the BI encoding direction we can make the LM to infer ``Box Z contains the stone'' and ``Box Z contains the map''.
- Abstract(参考訳): 複雑な推論にはエンティティのトラッキングが不可欠だ。
コンテキスト内エンティティ追跡を実行するには、言語モデル(LM)がエンティティを属性(例えば、コンテナをコンテンツにバインドする)にバインドし、エンティティの属性をリコールする必要がある。
例えば、'The coffee is in Box Z', the stone is in Box M', the map is in Box H'', to infer ``Box Z contains the coffee'' という文脈では、LMは ``Box Z'' を ``coffee'' に結合しなければならない。
Feng と Steinhardt (2023) は LM の結合挙動を説明するため、Binding ID 機構を導入し、LM がBinding ID (BI) と呼ばれる抽象概念を使ってエンティティと属性のペアを内部的にマークしていることを述べる。
しかし、BI決定情報をエンティティアクティベーションから直接は取得していない。
本研究では,BI情報のプロトタイプをローカライズすることで,バインディングID機構の新たなビューを提供する。
具体的には、主にエンティティと属性の順序を符号化し、BIのプロトタイプとして結合を因果的に決定する、LMの隠れ状態(またはアクティベーション)に低ランクな部分空間が存在することを明らかにする。
この部分空間を特定するために、我々は原理的成分分析を最初の試みとして選択し、有効であることが実証的に証明されている。
さらに、サブスペース内の方向に沿って表現を編集する場合、LMは特定のエンティティを他の属性に結び付ける傾向にあることもわかりました。
例えば、BIエンコーディング方向に沿ってアクティベーションをパッチすることで、LM に ``Box Z が Stone' を含むと ``Box Z が map'' を含むと推測させることができる。
関連論文リスト
- Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - Editing Arbitrary Propositions in LLMs without Subject Labels [88.67755930096966]
GT(Gradient Tracing)と呼ばれるシンプルで高速なローカライゼーション手法を提案する。
GTは、単にバイナリではなく任意の命題を編集できる。
提案手法は, 対象ラベルにアクセスせずに, 対象ラベルを持つ最先端のL&E手法に近い動作を行うことを示す。
論文 参考訳(メタデータ) (2024-01-15T08:08:24Z) - How do Language Models Bind Entities in Context? [31.529253469951062]
言語モデル(LM)は、エンティティを属性にバインドし、コンテキスト内情報を正しく使用する必要がある。
我々はバインディングIDのメカニズムを同定し、バインディング問題を解くための一般的なメカニズムを示す。
本研究は,テキスト上での記号的知識を表現するためのLMの解釈可能な戦略を明らかにする。
論文 参考訳(メタデータ) (2023-10-26T07:10:31Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - From Alignment to Entailment: A Unified Textual Entailment Framework for
Entity Alignment [17.70562397382911]
既存のメソッドは通常、エンティティのトリプルを埋め込みとしてエンコードし、埋め込みの整列を学ぶ。
我々は両トリプルを統一されたテキストシーケンスに変換し、EAタスクを双方向のテキストエンタテインメントタスクとしてモデル化する。
提案手法は,エンティティ間の2種類の情報の統合相関パターンを捕捉し,元のエンティティ情報間のきめ細かい相互作用を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T08:06:50Z) - KnowGL: Knowledge Generation and Linking from Text [13.407149206621828]
我々は,テキストをABoxアサーションの集合として表される構造化された関係データに変換するツールであるKnowGLを提案する。
本稿では,BARTなどの事前学習されたシーケンス・ツー・シーケンス言語モデルを活用することで,シーケンス生成タスクとしてこの問題に対処する。
ツールの機能を示すために,入力テキストから抽出したセマンティックデータをナビゲートするUIウィジェットからなるWebアプリケーションを構築した。
論文 参考訳(メタデータ) (2022-10-25T12:12:36Z) - Entity Cloze By Date: What LMs Know About Unseen Entities [79.34707800653597]
言語モデル(LM)は通常、大規模なコーパスで一度訓練され、更新されずに数年間使用される。
本研究では,LMの事前学習時に存在しなかった新しいエンティティについて,LMがどのような推論ができるのかを解析する枠組みを提案する。
本論文は,その発祥日によって索引付けされたエンティティのデータセットを,英語のウィキペディア記事と組み合わせて作成し,各エンティティに関する文章を検索する。
論文 参考訳(メタデータ) (2022-05-05T17:59:31Z) - UniRE: A Unified Label Space for Entity Relation Extraction [67.53850477281058]
合同エンティティ関係抽出モデルでは、2つのサブタスクに対して2つの分離ラベル空間を設定する。
この設定は、エンティティとリレーション間の情報相互作用を妨げる可能性があると我々は主張する。
本研究では,2つのサブタスクのラベル空間における異なる処理を除去することを提案する。
論文 参考訳(メタデータ) (2021-07-09T08:09:37Z) - From Bag of Sentences to Document: Distantly Supervised Relation
Extraction via Machine Reading Comprehension [22.39362905658063]
新しいDSパラダイム-文書ベースの遠隔監視を提案する。
提案手法は,新しい最先端DS性能を実現する。
論文 参考訳(メタデータ) (2020-12-08T10:16:27Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。