論文の概要: Position Bias Mitigates Position Bias:Mitigate Position Bias Through Inter-Position Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2508.15709v2
- Date: Wed, 17 Sep 2025 05:47:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 14:28:52.284791
- Title: Position Bias Mitigates Position Bias:Mitigate Position Bias Through Inter-Position Knowledge Distillation
- Title(参考訳): 位置バイアスを緩和する位置バイアス:機能間知識蒸留による位置バイアスを緩和する
- Authors: Yifei Wang, Feng Xiong, Yong Wang, Linjing Li, Xiangxiang Chu, Daniel Dajun Zeng,
- Abstract要約: 位置バイアス(PB)は、長文理解と処理能力を損なう。
位置知識蒸留フレームワークであるtextbfPos2Distill を導入する。
Pos2Distillは、有利な位置からあまり好ましくない位置へ優れた機能を転送する。
- 参考スコア(独自算出の注目度): 35.3262413453604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Positional bias (PB), manifesting as non-uniform sensitivity across different contextual locations, significantly impairs long-context comprehension and processing capabilities. Previous studies have addressed PB either by modifying the underlying architectures or by employing extensive contextual awareness training. However, the former approach fails to effectively eliminate the substantial performance disparities, while the latter imposes significant data and computational overhead. To address PB effectively, we introduce \textbf{Pos2Distill}, a position to position knowledge distillation framework. Pos2Distill transfers the superior capabilities from advantageous positions to less favorable ones, thereby reducing the huge performance gaps. The conceptual principle is to leverage the inherent, position-induced disparity to counteract the PB itself. We identify distinct manifestations of PB under \textbf{\textsc{r}}etrieval and \textbf{\textsc{r}}easoning paradigms, thereby designing two specialized instantiations: \emph{Pos2Distill-R\textsuperscript{1}} and \emph{Pos2Distill-R\textsuperscript{2}} respectively, both grounded in this core principle. By employing the Pos2Distill approach, we achieve enhanced uniformity and significant performance gains across all contextual positions in long-context retrieval and reasoning tasks. Crucially, both specialized systems exhibit strong cross-task generalization mutually, while achieving superior performance on their respective tasks.
- Abstract(参考訳): 位置バイアス(PB)は、異なる文脈において一様でない感度を示すが、長文理解と処理能力を著しく損なう。
これまでの研究では、基盤となるアーキテクチャを変更するか、広範囲な文脈認識トレーニングを採用することによってPBに対処してきた。
しかし、前者のアプローチではパフォーマンスの相違を効果的に排除することができず、後者ではデータと計算上のオーバーヘッドが大きい。
PB を効果的に扱うために,知識蒸留の枠組みを位置づける場所である textbf{Pos2Distill} を導入する。
Pos2Distillは、有利な位置からあまり好ましくない位置へ優れた機能を転送することで、大きなパフォーマンスギャップを減らします。
概念原理は、PB自体に対抗するために、固有の位置誘起の格差を活用することである。
PB の異なる表現を \textbf{\textsc{r}}etrieval と \textbf{\textsc{r}}easoning パラダイムで識別し,2つの特殊インスタンス化: \emph{Pos2Distill-R\textsuperscript{1}} と \emph{Pos2Distill-R\textsuperscript{2}} をそれぞれ設計する。
Pos2Distillの手法を用いることで、長文検索や推論タスクにおける文脈的位置の統一性と大幅な性能向上を実現する。
重要な点として、両方の特殊系は相互に強いクロスタスクの一般化を示し、それぞれのタスクにおいて優れた性能を達成している。
関連論文リスト
- On the Emergence of Position Bias in Transformers [59.87743433861665]
本稿では,多層構造における位置バイアスを解析するためのグラフ理論フレームワークを提案する。
我々のフレームワークは、トランスにおける位置的相互作用を理解するための原則的な基盤を提供する。
論文 参考訳(メタデータ) (2025-02-04T02:53:07Z) - Generalizable Person Re-identification via Balancing Alignment and Uniformity [22.328800139066914]
ドメイン一般化可能な人物再識別(DG re-ID)は、分布シフトに頑健な識別表現を学習することを目的としている。
ある増補は、このタスクにおいて偏極効果を示し、分配性能を低下させながら、分配性能を向上させる。
本研究では,アライメントと統一性のバランスを維持することによって,この効果を効果的に軽減する新しい枠組みであるBAUを提案する。
論文 参考訳(メタデータ) (2024-11-18T11:13:30Z) - Positional Attention: Expressivity and Learnability of Algorithmic Computation [6.181408276896225]
この研究は、アルゴリズム実行におけるトランスフォーマーにおける注意の役割をよりよく理解することを目的としている。
位置対応変換器(位置対応変換器)は並列計算モデルと同じ表現性を持つことを示す。
パラメータノルムにより良い理論的依存を示す一方で、特定のタスクはより多くの層を必要とする可能性がある。
論文 参考訳(メタデータ) (2024-10-02T15:55:08Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - Joint Learning for Scattered Point Cloud Understanding with Hierarchical Self-Distillation [34.26170741722835]
そこで本研究では,部分点雲を高速に補正し,同定するエンド・ツー・エンドアーキテクチャを提案する。
階層型自己蒸留(HSD)は任意の階層ベースのポイントクラウドメソッドに適用できる。
論文 参考訳(メタデータ) (2023-12-28T08:51:04Z) - Unified Batch Normalization: Identifying and Alleviating the Feature
Condensation in Batch Normalization and a Unified Framework [55.22949690864962]
バッチ正規化(BN)は、現代のニューラルネットワーク設計において欠かせない技術となっている。
UBN(Unified Batch Normalization)と呼ばれる2段階統合フレームワークを提案する。
UBNは異なる視覚バックボーンと異なる視覚タスクのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-27T16:41:31Z) - Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文 参考訳(メタデータ) (2022-05-27T11:13:17Z) - SHAPE: Shifted Absolute Position Embedding for Transformers [59.03597635990196]
既存の位置表現は、目に見えない長さや計算コストの高いデータをテストする一般化の欠如に悩まされる。
両問題に対処するため,シフト絶対位置埋め込み(SHAPE)について検討した。
論文 参考訳(メタデータ) (2021-09-13T00:10:02Z) - CAPE: Encoding Relative Positions with Continuous Augmented Positional
Embeddings [33.87449556591022]
絶対位置埋め込みのための拡張型アプローチ(CAPE)を提案する。
CAPEは絶対(単純さと速度)と相対的な位置埋め込み(一般化)の両方の利点を保っている。
論文 参考訳(メタデータ) (2021-06-06T14:54:55Z) - Adversarial Robustness under Long-Tailed Distribution [93.50792075460336]
敵対的ロバスト性はディープネットワークの脆弱性と本質的特徴を明らかにすることで近年広く研究されている。
本研究では,長尾分布下における敵対的脆弱性と防御について検討する。
我々は、スケール不変とデータ再分散という2つの専用モジュールからなるクリーンで効果的なフレームワークであるRoBalを提案する。
論文 参考訳(メタデータ) (2021-04-06T17:53:08Z) - Improve Transformer Models with Better Relative Position Embeddings [18.59434691153783]
トランスフォーマーアーキテクチャは、単語順序の概念を維持するために明示的な位置符号化に依存している。
既存の作業は位置情報を十分に活用していないと我々は主張する。
本稿では,クエリ,キー,相対的な位置埋め込みの相互作用を促進する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-28T22:18:58Z) - Feature Alignment and Restoration for Domain Generalization and
Adaptation [93.39253443415392]
クロスドメイン機能アライメントは、ドメイン不変表現を学ぶために、異なるドメインの特徴分布を抽出するために広く研究されてきた。
本稿では,FAR(Feature Alignment and Restoration)と呼ばれる統合フレームワークを提案する。
複数の分類ベンチマークの実験は、ドメインの一般化と教師なしドメインの適応の両方のためのFARフレームワークの性能と強力な一般化を実証している。
論文 参考訳(メタデータ) (2020-06-22T05:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。