論文の概要: The Position Curse: LLMs Struggle to Locate the Last Few Items in a List
- arxiv url: http://arxiv.org/abs/2605.07127v1
- Date: Fri, 08 May 2026 02:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.736751
- Title: The Position Curse: LLMs Struggle to Locate the Last Few Items in a List
- Title(参考訳): 位置曲線: LLMs Struggle to Locate the Last few Items in a List
- Authors: Zhanqi Zhang, Hua-Dong Xiong, Robert C. Wilson, Mikio Aoi, Marcelo G. Mattar, Li Ji-An,
- Abstract要約: 私たちはこの失敗を位置曲線と呼んでいる。
例えば、2行のコードスニペットであっても、Claude Opus 4.6は多くの場合、第2から第2の行を誤識別する。
ポストトレーニングによってこの能力が救えるかどうかを調べるため、位置中心のトレーニングデータセットであるPosBenchを構築した。
- 参考スコア(独自算出の注目度): 2.1427692215471263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large language models (LLMs) can find a needle in a haystack (locating a single relevant fact buried among hundreds of thousands of irrelevant tokens) with near-saturated accuracy, yet fail to retrieve the last few items in a short list. We call this failure the Position Curse. For instance, even in a two-line code snippet, Claude Opus 4.6 misidentifies the second-to-last line most of the time. To characterize this failure, we evaluated two complementary queries: given a position in a sequence (of letters or words), retrieve the corresponding item; and given an item, return its position. Each position is specified as a forward or backward offset from an anchor, either an endpoint of the list (its start or end) or another item in the list. Across both open-source and frontier closed-source models, backward retrieval substantially lags forward retrieval. To test whether this capability can be rescued by post-training, we constructed PosBench, a position-focused training dataset. LoRA fine-tuning improves both forward and backward retrieval and generalizes to a held-out code-understanding benchmark (PyIndex), yet absolute performance remains far from saturated. As LLM coding agents increasingly operate over large codebases where precise indexing becomes essential for code understanding and editing, position-based retrieval emerges as a key capability for future pretraining objectives and model design.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は、ほぼ飽和した精度で干し草のスタック(数十万の無関係なトークンに埋もれた単一の関連する事実)に針を見つけることができるが、短いリストで最後の数項目を検索することができない。
私たちはこの失敗を位置曲線と呼んでいる。
例えば、2行のコードスニペットであっても、Claude Opus 4.6は多くの場合、第2から第2の行を誤識別する。
この失敗を特徴付けるために、ある順序(文字や単語)の位置を与えられたり、対応する項目を検索したり、項目を与えられたり、その位置を返すという2つの相補的なクエリを評価した。
各位置は、アンカーから前方または後方のオフセットとして指定され、リストのエンドポイント(開始または終了)またはリスト内の他のアイテムのいずれかである。
オープンソースとフロンティアのクローズドソースモデルの両方で、後方検索は前方検索を大幅に遅れている。
ポストトレーニングによってこの能力が救えるかどうかを調べるため、位置中心のトレーニングデータセットであるPosBenchを構築した。
LoRAの微調整は前方と後方の両方の検索を改善し、ホールドアウトされたコードアンダードベンチマーク(PyIndex)に一般化するが、絶対的なパフォーマンスは飽和には程遠い。
LLMコーディングエージェントは、コードの理解と編集に正確なインデックス付けが不可欠となる大規模なコードベースでますます運用されるようになると、位置ベースの検索が将来の事前学習目標とモデル設計の重要な機能として現れます。
関連論文リスト
- AlignCoder: Aligning Retrieval with Target Intent for Repository-Level Code Completion [55.21541958868449]
リポジトリレベルのコード補完フレームワークであるAlignCoderを提案する。
我々のフレームワークは、初期クエリとターゲットコードのセマンティックギャップを橋渡しする拡張クエリを生成する。
我々は、拡張クエリにおける推論情報を活用してより正確な検索を行うAlignRetrieverのトレーニングに強化学習を採用する。
論文 参考訳(メタデータ) (2026-01-27T15:23:14Z) - RLPO: Residual Listwise Preference Optimization for Long-Context Review Ranking [50.709454968853954]
ポイントワイドスコアは効率的だが、しばしばリストレベルの相互作用を考慮に入れない。
リストワイズアプローチはグローバルなコンテキストを活用することができるが、計算コストが高く、候補リストが大きくなるにつれて不安定になる。
本稿では,リストワイズ表現レベルの残差補正としてランク付けするResidual Listwise Preference Optimization (RLPO)を提案する。
論文 参考訳(メタデータ) (2026-01-12T11:45:19Z) - Autoregressive Ranking: Bridging the Gap Between Dual and Cross Encoders [37.16464474575651]
マルチトークンドクIDを用いたポイントワイズ生成ランキングはデュアルエンコーダよりも優れていることを示す。
SToICaLは、アイテムとトークンのレベルの両方において、ランク対応の監視を組み込むことができるシンプルなトークンの校正損失である。
論文 参考訳(メタデータ) (2026-01-09T07:16:28Z) - SweRank: Software Issue Localization with Code Ranking [109.3289316191729]
SweRankは、ソフトウェア問題ローカライゼーションのための効率的な検索と参照のためのフレームワークである。
パブリックなGitHubリポジトリからキュレートされた大規模なデータセットであるSweLocを構築します。
SweRankは最先端の性能を達成し、従来のランキングモデルとコストの高いエージェントベースシステムの両方より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-07T19:44:09Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - ReFIT: Relevance Feedback from a Reranker during Inference [109.33278799999582]
Retrieve-and-Rerankは、ニューラル情報検索の一般的なフレームワークである。
本稿では,リランカを利用してリコールを改善する手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T15:30:33Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。