論文の概要: Beyond Semantics: How Temporal Biases Shape Retrieval in Transformer and State-Space Models
- arxiv url: http://arxiv.org/abs/2510.22752v1
- Date: Sun, 26 Oct 2025 17:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.35525
- Title: Beyond Semantics: How Temporal Biases Shape Retrieval in Transformer and State-Space Models
- Title(参考訳): セマンティックスを超えて: トランスフォーマーと状態空間モデルにおける時間的バイアスの形状検索
- Authors: Anooshka Bajaj, Deven Mahesh Mistry, Sahaj Singh Maini, Yash Aggarwal, Zoran Tiganj,
- Abstract要約: 文脈内学習は時間的関係と意味的関係の両方によって支配される。
この研究は、様々な事前訓練された大規模言語モデル(LLM)が、時間的に分離されたイベントを識別し、検索する能力について調査する。
本研究は、文脈内学習における時間的偏見の理解を深め、これらの偏見が時間的分離と韻律的検索をいかに可能かを示すものである。
- 参考スコア(独自算出の注目度): 4.69761138328817
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In-context learning is governed by both temporal and semantic relationships, shaping how Large Language Models (LLMs) retrieve contextual information. Analogous to human episodic memory, where the retrieval of specific events is enabled by separating events that happened at different times, this work probes the ability of various pretrained LLMs, including transformer and state-space models, to differentiate and retrieve temporally separated events. Specifically, we prompted models with sequences containing multiple presentations of the same token, which reappears at the sequence end. By fixing the positions of these repeated tokens and permuting all others, we removed semantic confounds and isolated temporal effects on next-token prediction. Across diverse sequences, models consistently placed the highest probabilities on tokens following a repeated token, but with a notable bias for those nearest the beginning or end of the input. An ablation experiment linked this phenomenon in transformers to induction heads. Extending the analysis to unique semantic contexts with partial overlap further demonstrated that memories embedded in the middle of a prompt are retrieved less reliably. Despite architectural differences, state-space and transformer models showed comparable temporal biases. Our findings deepen the understanding of temporal biases in in-context learning and offer an illustration of how these biases can enable temporal separation and episodic retrieval.
- Abstract(参考訳): 文脈内学習は時間的・意味的な関係によって制御され、Large Language Models(LLM)が文脈情報を取得する方法を形成する。
異なるタイミングで発生した事象を分離することで、特定の事象の検索が可能となるヒトのエピソード記憶と類似して、この研究は、トランスフォーマーや状態空間モデルを含む様々な事前訓練されたLSMが、時間的に分離された事象を区別し、検索する能力について調査する。
具体的には、同じトークンの複数のプレゼンテーションを含むシーケンスを持つモデルを提案し、シーケンスの最後に再び現れる。
これらの繰り返しトークンの位置を固定し、他の全てのトークンを置換することにより、次トーケン予測に対するセマンティック・コンファウンドと孤立した時間効果を除去した。
さまざまなシーケンスにわたって、モデルは繰り返しトークンの後にトークンに最も高い確率を常に配置したが、入力の開始と終了に最も近いものには顕著なバイアスがあった。
アブレーション実験は、この現象をトランスフォーマーで誘導ヘッドと結びつけた。
分析を部分的な重複を伴うユニークな意味文脈に拡張することで、プロンプトの中央に埋め込まれた記憶が、より確実に検索されることが証明された。
アーキテクチャ上の違いにもかかわらず、状態空間とトランスフォーマーモデルは、時間バイアスに匹敵する傾向を示した。
本研究は、文脈内学習における時間的偏見の理解を深め、これらの偏見が時間的分離と韻律的検索をいかに可能かを示すものである。
関連論文リスト
- Not in Sync: Unveiling Temporal Bias in Audio Chat Models [59.146710538620816]
大規模音声言語モデル(LALM)は、音声理解やマルチモーダル推論にますます応用されている。
LALMにおける時間バイアスに関する最初の体系的研究を行い,その時間スタンプ予測における重要な限界を明らかにした。
論文 参考訳(メタデータ) (2025-10-14T06:29:40Z) - TimeSiam: A Pre-Training Framework for Siamese Time-Series Modeling [67.02157180089573]
時系列事前トレーニングは、最近、ラベルのコストを削減し、下流の様々なタスクに利益をもたらす可能性があるとして、広く注目を集めている。
本稿では,シームズネットワークに基づく時系列の簡易かつ効果的な自己教師型事前学習フレームワークとしてTimeSiamを提案する。
論文 参考訳(メタデータ) (2024-02-04T13:10:51Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Generic Temporal Reasoning with Differential Analysis and Explanation [61.96034987217583]
時間差分解析でギャップを埋めるTODAYという新しいタスクを導入する。
TODAYは、システムがインクリメンタルな変化の効果を正しく理解できるかどうかを評価する。
共同学習においてTODAYの指導スタイルと説明アノテーションが有効であることを示す。
論文 参考訳(メタデータ) (2022-12-20T17:40:03Z) - A new harmonium for pattern recognition in survival data [0.0]
方法:エネルギーに基づくアプローチは、潜在状態と可視状態の間に二部構造を持ち、一般にハーモニウムと呼ばれる。
我々は、余分な時間-時間変数を活用することにより、差別的予測が改善されることを実証する。
論文 参考訳(メタデータ) (2021-10-05T11:42:36Z) - Long-Range Transformers for Dynamic Spatiotemporal Forecasting [16.37467119526305]
グラフニューラルネットワークに基づく手法は、変数関係を明示的にモデル化する。
ロングランジ変換器は、この拡張シーケンスに沿って時間、値、情報の相互作用を一緒に学習することができる。
論文 参考訳(メタデータ) (2021-09-24T22:11:46Z) - Pay Attention to Evolution: Time Series Forecasting with Deep
Graph-Evolution Learning [33.79957892029931]
本研究は時系列予測のためのニューラルネットワークアーキテクチャを提案する。
Recurrent Graph Evolution Neural Network (ReGENN) と名付けた。
多数のアンサンブル法と古典統計法との比較を行った。
論文 参考訳(メタデータ) (2020-08-28T20:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。