論文の概要: Self-Consistency Falls Short! The Adverse Effects of Positional Bias on Long-Context Problems
- arxiv url: http://arxiv.org/abs/2411.01101v2
- Date: Wed, 05 Mar 2025 01:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:49:35.636934
- Title: Self-Consistency Falls Short! The Adverse Effects of Positional Bias on Long-Context Problems
- Title(参考訳): 自己整合性低下は短い! 長期的問題に対する位置バイアスの逆効果
- Authors: Adam Byerly, Daniel Khashabi,
- Abstract要約: 大規模言語モデル(LLM)の性能向上のために,自己整合性(SC)が実証されている。
SCの利点が長文設定に一般化されるという仮定に挑戦する。
SCは改善に失敗するだけでなく、長文タスクのパフォーマンスを積極的に低下させる。
- 参考スコア(独自算出の注目度): 18.633918831942434
- License:
- Abstract: Self-consistency (SC) has been demonstrated to enhance the performance of large language models (LLMs) across various tasks and domains involving short content. However, does this evidence support its effectiveness for long-context problems? We challenge the assumption that SC's benefits generalize to long-context settings, where LLMs often struggle with position bias--a systematic tendency to over-rely on specific context regions-which hinders their ability to utilize information effectively from all parts of their context. Through comprehensive experimentation with varying state-of-the-art models and tasks, we find that SC not only fails to improve but actively degrades performance on long-context tasks. This degradation appears driven by persistent position bias, worsening with longer context lengths and smaller model sizes, but invariant to prompt format or task type. Unlike short-context tasks, where SC diversifies reasoning paths, long-context SC amplifies positional errors. These comprehensive results provide valuable insight into the limitations of current LLMs in long-context understanding and highlight the need for more sophisticated approaches.
- Abstract(参考訳): 自己整合性(SC)は、様々なタスクや短いコンテンツを含む領域にわたる大規模言語モデル(LLM)の性能を高めるために実証されている。
しかし、この証拠は長文問題に対する有効性を支持するのだろうか?
SCの利点は、LLMが特定のコンテキスト領域に過度に依存する体系的な傾向である位置バイアスに苦しむ長期コンテキスト設定に一般化されるという仮定に挑戦する。
各種の最先端モデルとタスクによる総合的な実験により、SCは改善に失敗するだけでなく、長文タスクのパフォーマンスを積極的に低下させることがわかった。
この劣化は、永続的な位置バイアスによって引き起こされ、より長いコンテキスト長とより小さなモデルサイズで悪化するが、プロンプトフォーマットやタスクタイプには不変である。
SCが推論経路を多様化する短文タスクとは異なり、長文SCは位置誤差を増幅する。
これらの総合的な結果は、長いコンテキスト理解における現在のLLMの限界についての貴重な洞察を与え、より洗練されたアプローチの必要性を強調します。
関連論文リスト
- FltLM: An Intergrated Long-Context Large Language Model for Effective Context Filtering and Understanding [32.197113821638936]
我々は,新しいLong-Context Large Language Model (FltLM)を提案する。
FltLMはコンテキストフィルタをソフトマスク機構に組み込み、関連する情報に集中するために無関係な内容を特定し、動的に排除する。
実験の結果,複雑なQAシナリオにおいて,FltLMは教師付き微調整法や検索法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-09T13:47:50Z) - A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (2024-09-18T17:53:17Z) - Stress-Testing Long-Context Language Models with Lifelong ICL and Task Haystack [33.178008350124315]
長いコンテキスト言語モデル(LM)に挑戦し、インコンテキスト学習(ICL)を通して言語タスクのシーケンスを学習する問題設定であるLifelong ICLを導入する。
長文LMがLifelong ICLのコンテキストをどのように利用するかを評価し診断するための評価スイートであるTask Haystackを紹介する。
論文 参考訳(メタデータ) (2024-07-23T17:57:41Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - Unlocking Context Constraints of LLMs: Enhancing Context Efficiency of
LLMs with Self-Information-Based Content Filtering [4.1372815372396525]
本稿では,少ない情報内容のフィルタリングに自己情報を利用するtextitSelective Contextを提案する。
我々は,複数のデータソースにまたがる要約と質問応答のタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-24T13:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。