論文の概要: Slot Machines: How LLMs Keep Track of Multiple Entities
- arxiv url: http://arxiv.org/abs/2604.21139v1
- Date: Wed, 22 Apr 2026 23:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.208832
- Title: Slot Machines: How LLMs Keep Track of Multiple Entities
- Title(参考訳): スロットマシン:LSMが複数のエンティティを追跡できる方法
- Authors: Paul C. Bogdan, Jack Lindsey,
- Abstract要約: 複数のエンティティがトークンの位置にまたがってどのように表現され、単一のトークンが複数のエンティティに対するバインディングを持てるかを検討する。
本研究では,「電流エンティリティ」と「一次エンティリティ」のスロットの機能的役割を分析し,それらが異なる目的を果たすことを明らかにする。
- 参考スコア(独自算出の注目度): 2.0442903086711017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models must bind entities to the attributes they possess and maintain several such binding relationships within a context. We study how multiple entities are represented across token positions and whether single tokens can carry bindings for more than one entity. We introduce a multi-slot probing approach that disentangles a single token's residual stream activation to recover information about both the currently described entity and the immediately preceding one. These two kinds of information are encoded in separate and largely orthogonal "current-entity" and "prior-entity" slots. We analyze the functional roles of these slots and find that they serve different purposes. In tandem with the current-entity slot, the prior-entity slot supports relational inferences, such as entity-level induction ("who came after Alice in the story?") and conflict detection between adjacent entities. However, only the current-entity slot is used for explicit factual retrieval questions ("Is anyone in the story tall?" "What is the tall entity's name?") despite these answers being linearly decodable from the prior-entity slot too. Consistent with this limitation, open-weight models perform near chance accuracy at processing syntax that forces two subject-verb-object bindings on a single token (e.g., "Alice prepares and Bob consumes food.") Interestingly, recent frontier models can parse this properly, suggesting they may have developed more sophisticated binding strategies. Overall, our results expose a gap between information that is available in activations and information the model actually uses, and suggest that the current/prior-entity slot structure is a natural substrate for behaviors that require holding two perspectives at once, such as sycophancy and deception.
- Abstract(参考訳): 言語モデルは、エンティティを所有する属性にバインドし、コンテキスト内でいくつかのバインディング関係を維持する必要があります。
複数のエンティティがトークンの位置にまたがってどのように表現され、単一のトークンが複数のエンティティに対するバインディングを持てるかを検討する。
本稿では,単一トークンの残差ストリームアクティベーションをアンタングルして,現在記述されているエンティティと直前のエンティティの両方に関する情報を復元するマルチスロット探索手法を提案する。
これらの2種類の情報は、分離され、ほぼ直交する「カレント・エンティリティ」と「プリア・エンティリティ」のスロットに符号化される。
これらのスロットの機能的役割を分析し、異なる目的のために機能することを見つける。
現在のエンティリティスロットと連動して、事前エンティリティスロットは、エンティティレベルの帰納(ストーリーでアリスの後を追った)や、隣接するエンティティ間の競合検出など、リレーショナル推論をサポートする。
しかし、これらの答えは、先行性スロットから線形にデオード可能であるにもかかわらず、現在性スロットのみを明示的な事実検索の質問に用いている(「物語の背が高い人は誰ですか?」「背の高い存在名は何ですか?」)。
この制限に反し、オープンウェイトモデルは、単一のトークン(例えば「アリスの準備とボブが食物を消費する」)に2つの主元-主元-対象結合を強制する構文の処理において、ほぼ確実な精度で実行します。
以上の結果から,アクティベーションで利用可能な情報と,モデルが実際に使用している情報とのギャップが明らかになった。
関連論文リスト
- On the Representations of Entities in Auto-regressive Large Language Models [10.08529318994409]
本稿では,Large Language Models (LLM) がエンティティをエンコードし,操作する方法を研究するための新しいフレームワークとして,エンティティ参照再構成を導入する。
本稿では、内部表現からエンティティの言及が生成できるかどうか、複数トークンのエンティティがどのようにエンコードされているか、そしてそれらの表現が関係知識を捉えているかどうかを考察する。
論文 参考訳(メタデータ) (2025-10-10T14:23:44Z) - Entity Disambiguation via Fusion Entity Decoding [68.77265315142296]
より詳細なエンティティ記述を持つエンティティを曖昧にするためのエンコーダ・デコーダモデルを提案する。
GERBILベンチマークでは、EntQAと比較して、エンド・ツー・エンドのエンティティリンクが+1.5%改善されている。
論文 参考訳(メタデータ) (2024-04-02T04:27:54Z) - DRIN: Dynamic Relation Interactive Network for Multimodal Entity Linking [31.15972952813689]
本稿では,MEL タスクのための Dynamic Relation Interactive Network (DRIN) という新しいフレームワークを提案する。
DRINは、参照とエンティティの間の4種類のアライメントを明示的にモデル化し、動的グラフ畳み込みネットワーク(GCN)を構築し、異なる入力サンプルに対して対応するアライメント関係を動的に選択する。
2つのデータセットの実験により、DRINは最先端の手法を大きなマージンで上回り、我々のアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2023-10-09T10:21:42Z) - Contrastive Training of Complex-Valued Autoencoders for Object Discovery [55.280789409319716]
アーキテクチャの変更と、最先端の同期モデルを大幅に改善する新しいコントラスト学習手法を導入する。
マルチオブジェクトカラーデータセットにおいて、教師なしの方法でオブジェクトを発見できる同期ベースモデルのクラスを初めて取得する。
論文 参考訳(メタデータ) (2023-05-24T10:37:43Z) - From Alignment to Entailment: A Unified Textual Entailment Framework for
Entity Alignment [17.70562397382911]
既存のメソッドは通常、エンティティのトリプルを埋め込みとしてエンコードし、埋め込みの整列を学ぶ。
我々は両トリプルを統一されたテキストシーケンスに変換し、EAタスクを双方向のテキストエンタテインメントタスクとしてモデル化する。
提案手法は,エンティティ間の2種類の情報の統合相関パターンを捕捉し,元のエンティティ情報間のきめ細かい相互作用を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T08:06:50Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Dynamic Relation Discovery and Utilization in Multi-Entity Time Series
Forecasting [92.32415130188046]
多くの現実世界のシナリオでは、実体の間に決定的かつ暗黙的な関係が存在する可能性がある。
本稿では,自動グラフ学習(A2GNN)を用いたマルチグラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-02-18T11:37:04Z) - LUKE: Deep Contextualized Entity Representations with Entity-aware
Self-attention [37.111204321059084]
両方向変換器に基づく単語と実体の事前学習した文脈表現を提案する。
我々のモデルは、BERTのマスキング言語モデルに基づく新しい事前訓練タスクを用いて訓練される。
また,変換器の自己認識機構の拡張である自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-02T15:38:03Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。