論文の概要: Layer-wise Positional Bias in Short-Context Language Modeling
- arxiv url: http://arxiv.org/abs/2601.04098v1
- Date: Wed, 07 Jan 2026 17:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.217558
- Title: Layer-wise Positional Bias in Short-Context Language Modeling
- Title(参考訳): 短時間言語モデリングにおける階層的位置バイアス
- Authors: Maryam Rahimi, Mahdi Nouri, Yadollah Yaghoobzadeh,
- Abstract要約: 短文言語モデリングにおける位置の影響を解析するための属性に基づくフレームワークを提案する。
我々は、各層が入力位置間で重要度を分配する方法を定量化し、層単位での重要度プロファイルを得る。
これらのプロファイルを特徴付けると、モデル深度を通して減少する深度と微妙な優劣バイアスで増大する顕著な直立バイアスが見つかる。
- 参考スコア(独自算出の注目度): 5.417332705560665
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Language models often show a preference for using information from specific positions in the input regardless of semantic relevance. While positional bias has been studied in various contexts, from attention sinks to task performance degradation in long-context settings, prior work has not established how these biases evolve across individual layers and input positions, or how they vary independent of task complexity. We introduce an attribution-based framework to analyze positional effects in short-context language modeling. Using layer conductance with a sliding-window approach, we quantify how each layer distributes importance across input positions, yielding layer-wise positional importance profiles. We find that these profiles are architecture-specific, stable across inputs, and invariant to lexical scrambling. Characterizing these profiles, we find prominent recency bias that increases with depth and subtle primacy bias that diminishes through model depth. Beyond positional structure, we also show that early layers preferentially weight content words over function words across all positions, while later layers lose this word-type differentiation.
- Abstract(参考訳): 言語モデルは、意味的関連性に関係なく、入力中の特定の位置から情報を使うのが好まれる。
注意シンクからタスクパフォーマンスの劣化に至るまで、様々な文脈で位置バイアスが研究されているが、以前の研究では、これらのバイアスが個々のレイヤや入力位置でどのように進化するか、タスクの複雑さとは独立してどのように変化するのかが定まっていない。
短文言語モデリングにおける位置の影響を解析するための属性に基づくフレームワークを提案する。
スライドウインドウ手法による層伝導率を用いて,各層が入力位置間で重要度を分散し,層単位での重要度プロファイルを導出する方法を定量化する。
これらのプロファイルはアーキテクチャ固有のものであり、入力に対して安定であり、語彙スクランブルに不変であることがわかった。
これらのプロファイルを特徴付けると、モデル深度を通して減少する深度と微妙な優劣バイアスで増大する顕著な直立バイアスが見つかる。
また, 位置構造以外にも, 初期層が全位置の関数語よりも優先的に重み付けされているのに対し, 後層ではこの単語型の区別が失われていることを示す。
関連論文リスト
- Positional Bias in Multimodal Embedding Models: Do They Favor the Beginning, the Middle, or the End? [5.449094110831793]
マルチモーダル表現モデルにおける位置バイアスについて,特に画像テキスト検索の文脈で検討する。
実験により,多モーダルモデルでは位置偏差がよく見られるが,モーダル性によって異なることが示されている。
このバイアスは、位置符号化方式、訓練損失、文脈の重要性、マルチモーダルトレーニングにおける画像とテキストのペアの使用の性質といった要素の組み合わせによって生じるか、増幅される。
論文 参考訳(メタデータ) (2025-11-14T12:15:46Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - Mitigate Position Bias in Large Language Models via Scaling a Single Dimension [47.792435921037274]
本稿ではまず,位置バイアスのマイクロレベル表現について考察し,注目重みが位置バイアスのマイクロレベル表現であることを示す。
さらに、位置埋め込みに加えて、因果注意マスクは位置特異的な隠れ状態を作成することによって位置バイアスに寄与する。
これらの知見に基づいて,この位置隠れ状態のスケーリングにより位置バイアスを軽減する手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T17:55:38Z) - How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z) - The Curious Case of Absolute Position Embeddings [65.13827063579728]
トランスフォーマー言語モデルは、位置情報を用いた単語順序の概念を符号化する。
自然言語では、絶対的な位置ではなく相対的な位置であり、APEがこのような情報を捉えることができる範囲は研究されていない。
我々は, APE を用いて訓練されたモデルが, 位置情報をシフトした文を入力した時点で, 位置情報に基づいて過度に訓練されていることを観察した。
論文 参考訳(メタデータ) (2022-10-23T00:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。