論文の概要: Quantifying Positional Biases in Text Embedding Models
- arxiv url: http://arxiv.org/abs/2412.15241v2
- Date: Mon, 23 Dec 2024 17:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:52.706294
- Title: Quantifying Positional Biases in Text Embedding Models
- Title(参考訳): テキスト埋め込みモデルにおける位置バイアスの定量化
- Authors: Reagan J. Lee, Samarth Goel, Kannan Ramchandran,
- Abstract要約: テキスト埋め込みにおけるコンテンツ位置と入力サイズの影響について検討する。
実験の結果, 埋め込みモデルは, 位置符号化機構によらず, 入力の開始点を不均等に優先順位付けしていることが判明した。
- 参考スコア(独自算出の注目度): 9.735115681462707
- License:
- Abstract: Embedding models are crucial for tasks in Information Retrieval (IR) and semantic similarity measurement, yet their handling of longer texts and associated positional biases remains underexplored. In this study, we investigate the impact of content position and input size on text embeddings. Our experiments reveal that embedding models, irrespective of their positional encoding mechanisms, disproportionately prioritize the beginning of an input. Ablation studies demonstrate that insertion of irrelevant text or removal at the start of a document reduces cosine similarity between altered and original embeddings by up to 12.3\% more than ablations at the end. Regression analysis further confirms this bias, with sentence importance declining as position moves further from the start, even with with content-agnosticity. We hypothesize that this effect arises from pre-processing strategies and chosen positional encoding techniques. These findings quantify the sensitivity of retrieval systems and suggest a new lens towards embedding model robustness.
- Abstract(参考訳): 埋め込みモデルは、情報検索(IR)と意味的類似度測定のタスクにおいて重要であるが、より長いテキストと関連する位置バイアスの処理はいまだ探索されていない。
本研究では,テキスト埋め込みにおけるコンテンツ位置と入力サイズの影響について検討する。
実験の結果, 埋め込みモデルは, 位置符号化機構によらず, 入力の開始点を不均等に優先順位付けしていることが判明した。
アブレーション研究は、文書の開始時に無関係なテキストの挿入や削除が、修正された埋め込みとオリジナル埋め込みのコサイン類似性を、最後にはアブレーションよりも最大12.3\%減少させることを示した。
回帰分析によりこのバイアスがさらに確認され、文章の重要度は、コンテンツに依存しない場合でも、位置が開始時からさらに移動するにつれて低下する。
我々は、この効果は前処理戦略と選択された位置符号化技術から生じると仮定する。
これらの結果は,検索システムの感度を定量化し,組込みモデルロバストネスに向けた新しいレンズを提案する。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Exploiting Positional Bias for Query-Agnostic Generative Content in Search [24.600506147325717]
検索結果における非関連テキストの位置に悪影響を及ぼすことなく、文書に非関連テキストを注入できることを示す。
非関連テキストの文脈化は、既存のコンテンツフィルタリング機構を回避しつつ、ネガティブな効果をさらに減少させる。
論文 参考訳(メタデータ) (2024-05-01T12:12:59Z) - Text Attribute Control via Closed-Loop Disentanglement [72.2786244367634]
本稿では,コンテンツ保存性を高めつつ,属性のロバストな制御を実現するための新しい手法を提案する。
本稿では,半教師付きコントラスト学習法を用いて,潜在空間における属性のアンタングル化を促進する。
Yelp Serviceレビューデータセット、Amazon Product Reviewデータセット、GoEmotionsデータセットを含む3つのテキストデータセットの実験を行った。
論文 参考訳(メタデータ) (2023-12-01T01:26:38Z) - Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal
Intervention [72.12974259966592]
トリミングビデオクリップのトレーニングセットとテストセットのフレーム長差による時間偏差について,一意かつ体系的に検討した。
Epic-Kitchens-100, YouCook2, MSR-VTTデータセットについて, 因果脱バイアス法を提案し, 広範な実験およびアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-09-17T15:58:27Z) - Debiasing Stance Detection Models with Counterfactual Reasoning and
Adversarial Bias Learning [15.68462203989933]
スタンス検出モデルは、ショートカットとしてテキスト部分のデータセットバイアスに依存する傾向がある。
より正確にバイアスをモデル化するための逆バイアス学習モジュールを提案する。
論文 参考訳(メタデータ) (2022-12-20T16:20:56Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - The Sensitivity of Word Embeddings-based Author Detection Models to
Semantic-preserving Adversarial Perturbations [3.7552532139404797]
著者分析は自然言語処理の分野において重要な課題である。
本稿では,入力の逆操作に対する既成アプローチの限界と感度について考察する。
論文 参考訳(メタデータ) (2021-02-23T19:55:45Z) - "Let's Eat Grandma": When Punctuation Matters in Sentence Representation
for Sentiment Analysis [13.873803872380229]
我々は、句読点が感情分析において重要な役割を果たすと論じ、構文的および文脈的パフォーマンスを改善するための新しい表現モデルを提案する。
公開データセットの実験を行い、モデルが他の最先端のベースラインメソッドよりも正確に感情を識別することができることを確認します。
論文 参考訳(メタデータ) (2020-12-10T19:07:31Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - An Experimental Study of The Effects of Position Bias on Emotion
CauseExtraction [8.43954669406248]
本研究では,感情原因抽出に対する単純なランダム選択手法が,ベースラインと同じような性能を実現することを示す。
感情的原因位置の不均衡がベンチマークに存在し、ほとんどの原因節が中心的感情節の直前にある。
ECEにおけるこれらの深層学習モデルの精度を高くする要因となったのは,このベンチマークの生まれつきのバイアスである,と結論付けている。
論文 参考訳(メタデータ) (2020-07-16T08:02:36Z) - Rethinking Positional Encoding in Language Pre-training [111.2320727291926]
絶対的な位置符号化では、位置埋め込みと単語埋め込みに適用される付加操作が混合相関をもたらすことを示す。
我々はtextbfUntied textPositional textbfEncoding (T) を用いた textbfTransformer という新しい位置符号化手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T13:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。