論文の概要: Information Representation Fairness in Long-Document Embeddings: The Peculiar Interaction of Positional and Language Bias
- arxiv url: http://arxiv.org/abs/2601.16934v1
- Date: Fri, 23 Jan 2026 17:48:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.789622
- Title: Information Representation Fairness in Long-Document Embeddings: The Peculiar Interaction of Positional and Language Bias
- Title(参考訳): 長期文書埋め込みにおける情報表現フェアネス:位置と言語バイアスの相互関係
- Authors: Elias Schuhmacher, Andrianos Michail, Juri Opitz, Rico Sennrich, Simon Clematide,
- Abstract要約: 文書が長く、複数のセグメントから構成される場合、最先端の埋め込みモデルは、体系的な位置バイアスと言語バイアスを示す。
具体的には、英語のような高リソース言語の初期のセグメントとセグメントは過剰に表現され、その後、低リソース言語のセグメントとセグメントは疎外される。
本稿では,文書の位置を均等に再分割し,後続セグメントの発見可能性を高める推論時間アテンションキャリブレーション手法を提案する。
- 参考スコア(独自算出の注目度): 29.915108607793996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To be discoverable in an embedding-based search process, each part of a document should be reflected in its embedding representation. To quantify any potential reflection biases, we introduce a permutation-based evaluation framework. With this, we observe that state-of-the-art embedding models exhibit systematic positional and language biases when documents are longer and consist of multiple segments. Specifically, early segments and segments in higher-resource languages like English are over-represented, while later segments and segments in lower-resource languages are marginalized. In our further analysis, we find that the positional bias stems from front-loaded attention distributions in pooling-token embeddings, where early tokens receive more attention. To mitigate this issue, we introduce an inference-time attention calibration method that redistributes attention more evenly across document positions, increasing discoverabiltiy of later segments. Our evaluation framework and attention calibration is available at https://github.com/impresso/fair-sentence-transformers
- Abstract(参考訳): 埋め込みベースの検索プロセスで発見できるように、文書の各部分は、その埋め込み表現に反映されるべきである。
潜在的な反射バイアスを定量化するために、置換に基づく評価フレームワークを導入する。
これにより、文書が長く、複数のセグメントから構成される場合、最先端の埋め込みモデルは、体系的な位置バイアスと言語バイアスを示す。
具体的には、英語のような高リソース言語の初期のセグメントとセグメントは過剰に表現され、その後、低リソース言語のセグメントとセグメントは疎外される。
さらに分析した結果,初期トークンの注目度が高いプール型埋め込みにおいて,前向きの注意分布から位置バイアスが生じることがわかった。
この問題を軽減するために、文書位置を均等に再分割し、後続セグメントの発見可能性を高める推論時間アテンションキャリブレーション手法を導入する。
評価フレームワークとアテンションキャリブレーションはhttps://github.com/impresso/fair-sentence-transformersで利用可能である。
関連論文リスト
- The Medium Is Not the Message: Deconfounding Document Embeddings via Linear Concept Erasure [98.71456610527598]
埋め込みベースの類似度メトリクスは、テキストのソースや言語のような刺激的な属性に影響される可能性がある。
本稿では,エンコーダ表現から観測された共同創設者に関する情報を除去するデバイアスアルゴリズムにより,これらのバイアスを最小の計算コストで大幅に低減することを示す。
論文 参考訳(メタデータ) (2025-07-01T23:17:12Z) - Attention Instruction: Amplifying Attention in the Middle via Prompting [35.07098912195063]
言語モデルはいまだ位置バイアスに悩まされており、コンテキストの中央へのアクセスと使用が困難である。
本研究では,LSMの相対的位置認識と,プロンプトによる不均等注意の軽減の可能性について検討した。
論文 参考訳(メタデータ) (2024-06-24T19:35:11Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Attention Sorting Combats Recency Bias In Long Context Language Models [69.06809365227504]
現在の言語モデルは、世代間の長いコンテキストを効率的に組み込むことができないことが多い。
この問題に対する主要なコントリビュータは,事前トレーニング中に学んだと思われる注意点である。
我々は、この事実を活用して注意ソートを導入する:1ステップのデコードを実行し、それらが受け取った注意によって文書をソートし、プロセスを繰り返し、新しくソートされたコンテキストで回答を生成する。
論文 参考訳(メタデータ) (2023-09-28T05:19:06Z) - Toward Unifying Text Segmentation and Long Document Summarization [31.084738269628748]
文章・音声文書の抽出要約において,部分分割が果たす役割について検討する。
本手法は,要約とセグメンテーションを同時に行うことによって,頑健な文表現を学習する。
以上の結果から,本モデルは,公開ベンチマーク上での最先端性能を達成できるだけでなく,異種間転送性も向上できることが示唆された。
論文 参考訳(メタデータ) (2022-10-28T22:07:10Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。