Fugu-MT 論文翻訳(概要): Mitigate Position Bias in Large Language Models via Scaling a Single Dimension

論文の概要: Mitigate Position Bias in Large Language Models via Scaling a Single Dimension

arxiv url: http://arxiv.org/abs/2406.02536v2
Date: Tue, 15 Oct 2024 15:58:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.267082
Title: Mitigate Position Bias in Large Language Models via Scaling a Single Dimension
Title（参考訳）: 単一次元のスケーリングによる大規模言語モデルの位置バイアス軽減
Authors: Yijiong Yu, Huiqiang Jiang, Xufang Luo, Qianhui Wu, Chin-Yew Lin, Dongsheng Li, Yuqing Yang, Yongfeng Huang, Lili Qiu,
Abstract要約: 本稿ではまず,位置バイアスのマイクロレベル表現について考察し,注目重みが位置バイアスのマイクロレベル表現であることを示す。さらに、位置埋め込みに加えて、因果注意マスクは位置特異的な隠れ状態を作成することによって位置バイアスに寄与する。これらの知見に基づいて,この位置隠れ状態のスケーリングにより位置バイアスを軽減する手法を提案する。
参考スコア（独自算出の注目度）: 47.792435921037274
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are increasingly applied in various real-world scenarios due to their excellent generalization capabilities and robust generative abilities. However, they exhibit position bias, also known as "lost in the middle", a phenomenon that is especially pronounced in long-context scenarios, which indicates the placement of the key information in different positions of a prompt can significantly affect accuracy. This paper first explores the micro-level manifestations of position bias, concluding that attention weights are a micro-level expression of position bias. It further identifies that, in addition to position embeddings, causal attention mask also contributes to position bias by creating position-specific hidden states. Based on these insights, we propose a method to mitigate position bias by scaling this positional hidden states. Experiments on the NaturalQuestions Multi-document QA, KV retrieval, LongBench and timeline reorder tasks, using various models including RoPE models, context windowextended models, and Alibi models, demonstrate the effectiveness and generalizability of our approach. Our method can improve performance by up to 15.2% by modifying just one dimension of hidden states. Our code is available at https://aka.ms/PositionalHidden.
Abstract（参考訳）: 大規模言語モデル(LLM)は、優れた一般化能力と堅牢な生成能力のために、様々な現実のシナリオにますます適用されている。しかし、これは特に長文のシナリオで発音される現象であり、プロンプトの異なる位置におけるキー情報の配置が精度に著しく影響を及ぼす可能性がある。本稿ではまず,位置バイアスのマイクロレベル表現について考察し,注目重みが位置バイアスのマイクロレベル表現であることを示す。さらに、位置埋め込みに加えて、因果注意マスクは位置特異的な隠れ状態を作成することによって位置バイアスに寄与する。これらの知見に基づいて,この位置隠れ状態のスケーリングにより位置バイアスを軽減する手法を提案する。マルチドキュメントQA,KV検索,LongBenchおよびタイムラインリオーダータスクの実験では,RoPEモデル,コンテキストウィンドウ拡張モデル,Alibiモデルなどのモデルを用いて,我々のアプローチの有効性と一般化性を実証した。隠れ状態の1次元だけを修正すれば,最大15.2%の性能向上が可能である。私たちのコードはhttps://aka.ms/PositionalHidden.comで利用可能です。

関連論文リスト

Attention Basin: Why Contextual Position Matters in Large Language Models [16.11590856103274]
モデルでは,シーケンスの開始と終了の項目に対して,中間の項目を無視しながら,より高い注意を体系的に割り当てることが示される。 AttnRank(AttnRank)は、モデル固有の位置的注目度を推定するフレームワークである。 AttnRankは、最小の計算オーバーヘッドを持つモデルに依存しない、トレーニングなし、プラグアンドプレイ方式である。
論文参考訳（メタデータ） (2025-08-07T08:08:08Z)
Position of Uncertainty: A Cross-Linguistic Study of Positional Bias in Large Language Models [49.46335932942725]
位置バイアスがモデルの不確実性、構文、プロンプトとどのように相互作用するかを検討する。本研究は,5つの言語にまたがる言語間比較研究である。
論文参考訳（メタデータ） (2025-05-22T02:23:00Z)
Benchmarking the Myopic Trap: Positional Bias in Information Retrieval [10.558261017416472]
本研究は,Myopic Trapと呼ばれる位置バイアスの特定の形態について検討し,検索モデルが後から現れる関連情報を見越しながら,文書の初期段階に不均等に出席することを示す。この現象を体系的に定量化するために,既存のNLPデータセットを位置対応ベンチマークに再利用するセマンティックス保存評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-20T05:29:01Z)
Wavelet-based Positional Representation for Long Context [14.902305283428642]
長い文脈における従来の位置符号化手法を解析する。ウェーブレット変換を利用して複数のスケール(ウィンドウサイズ)をキャプチャする新しい位置表現法を提案する。実験結果から,本手法は短所と長所の両方でモデルの性能を向上させることが示された。
論文参考訳（メタデータ） (2025-02-04T04:44:53Z)
On Positional Bias of Faithfulness for Long-form Summarization [83.63283027830657]
LLM(Large Language Models)は、長いコンテキスト設定において、入力の途中で情報に過小評価される位置バイアスを示すことが多い。長文要約におけるこのバイアスの存在、その忠実性への影響、およびこのバイアスを軽減するための様々な技術について検討する。
論文参考訳（メタデータ） (2024-10-31T03:50:15Z)
Distance between Relevant Information Pieces Causes Bias in Long-Context LLMs [50.40165119718928]
LongPiBenchは、複数の関連する情報を含む位置バイアスを評価するために設計されたベンチマークである。これらの実験によると、現在のほとんどのモデルは「中間の失われた」問題に対して堅牢であるが、関連する情報片の間隔に関する重大なバイアスが存在する。
論文参考訳（メタデータ） (2024-10-18T17:41:19Z)
Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文参考訳（メタデータ） (2024-07-01T09:06:57Z)
Position-Aware Parameter Efficient Fine-Tuning Approach for Reducing Positional Bias in LLMs [18.832135309689736]
大規模言語モデル(LLM)の最近の進歩は、長い入力コンテキストを処理する能力を高めている。近年の研究では、LCMの位置バイアスが示されており、有用な情報の位置に応じて様々な性能を示す。本研究では,データ拡張手法と効率的なパラメータアダプタを組み合わせた位置認識型PAPEFTアプローチを提案する。
論文参考訳（メタデータ） (2024-04-01T19:04:17Z)
Position bias in features [0.0]
文書固有の履歴クリックスルーレートは、動的ランキングシステムにおいて重要な特徴である。本稿では, それらの特徴について述べるとともに, 制御実験で検証する。
論文参考訳（メタデータ） (2024-02-04T22:15:30Z)
The Curious Case of Absolute Position Embeddings [65.13827063579728]
トランスフォーマー言語モデルは、位置情報を用いた単語順序の概念を符号化する。自然言語では、絶対的な位置ではなく相対的な位置であり、APEがこのような情報を捉えることができる範囲は研究されていない。我々は, APE を用いて訓練されたモデルが, 位置情報をシフトした文を入力した時点で, 位置情報に基づいて過度に訓練されていることを観察した。
論文参考訳（メタデータ） (2022-10-23T00:00:04Z)
Mitigating Representation Bias in Action Recognition: Algorithms and Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文参考訳（メタデータ） (2022-09-20T00:30:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。