論文の概要: RePo: Language Models with Context Re-Positioning
- arxiv url: http://arxiv.org/abs/2512.14391v1
- Date: Tue, 16 Dec 2025 13:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.724858
- Title: RePo: Language Models with Context Re-Positioning
- Title(参考訳): RePo:コンテキストリポジショニングを備えた言語モデル
- Authors: Huayang Li, Tianyu Zhao, Richard Sproat,
- Abstract要約: In-context Learning is fundamental to modern Large Language Models (LLMs)
一般的なアーキテクチャは、線形または定位置の指標を割り当てることで、厳密で固定された文脈構造を課します。
本稿では,コンテキスト再配置による余剰負荷を低減する機構であるRePoを提案する。
- 参考スコア(独自算出の注目度): 10.269249887819988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning is fundamental to modern Large Language Models (LLMs); however, prevailing architectures impose a rigid and fixed contextual structure by assigning linear or constant positional indices. Drawing on Cognitive Load Theory (CLT), we argue that this uninformative structure increases extraneous cognitive load, consuming finite working memory capacity that should be allocated to deep reasoning and attention allocation. To address this, we propose RePo, a novel mechanism that reduces extraneous load via context re-positioning. Unlike standard approaches, RePo utilizes a differentiable module, $f_φ$, to assign token positions that capture contextual dependencies, rather than replying on pre-defined integer range. By continually pre-training on the OLMo-2 1B backbone, we demonstrate that RePo significantly enhances performance on tasks involving noisy contexts, structured data, and longer context length, while maintaining competitive performance on general short-context tasks. Detailed analysis reveals that RePo successfully allocate higher attention to distant but relevant information, assign positions in dense and non-linear space, and capture the intrinsic structure of the input context. Our code is available at https://github.com/SakanaAI/repo.
- Abstract(参考訳): インコンテキスト学習は、現代のLarge Language Models (LLMs) の基本であるが、一般的なアーキテクチャでは線形または定位指標を割り当てることで、厳密で固定された文脈構造を課している。
認知的負荷理論(CLT)に基づき、この非形式的構造は、深い推論と注意の割り当てに割り当てられるべき有限のワーキングメモリ容量を消費し、異常な認知的負荷を増加させると主張している。
そこで本稿では,コンテキスト再配置による外部負荷を低減する機構であるRePoを提案する。
標準的なアプローチとは異なり、RePoは$f_φ$という差別化可能なモジュールを使用して、事前に定義された整数範囲に応答するのではなく、コンテキスト依存をキャプチャするトークン位置を割り当てる。
OLMo-2 1Bのバックボーン上で継続的に事前トレーニングを行うことにより、RePoは一般的な短コンテキストタスクにおける競合性能を維持しつつ、ノイズの多いコンテキスト、構造化されたデータ、長いコンテキスト長を含むタスクのパフォーマンスを大幅に向上することを示した。
詳細な分析により、RePoは、遠くにあるが関連する情報に高い注意を割り当て、密度と非線形空間の位置を割り当て、入力コンテキストの本質的な構造を捉えることに成功した。
私たちのコードはhttps://github.com/SakanaAI/repo.comから入手可能です。
関連論文リスト
- From Context to EDUs: Faithful and Structured Context Compression via Elementary Discourse Unit Decomposition [46.36937947958481]
グローバルな構造と細かな詳細の両方を保存するために設計された,新しい明示的圧縮フレームワークを提案する。
提案手法は,構造的コンテキスト圧縮を構造的テーマ選択プロセスとして再構成する。
提案手法は,最先端構造予測精度を実現し,フロンティアLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-16T09:52:58Z) - Concept than Document: Context Compression via AMR-based Conceptual Entropy [21.954536296551]
大規模言語モデル(LLM)は、特に検索拡張生成(RAG)において、長いコンテキストを扱う際に、情報の過負荷に直面します。
本稿では,抽象表現(AMR)グラフを利用した教師なしコンテキスト圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-24T07:08:02Z) - Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models [18.829572148850563]
ACE(Agentic Context Engineering)は、コンテキストを進化するプレイブックとして扱うフレームワークである。
エージェントとドメイン固有のベンチマークを通じて、ACEは一貫して強力なベースラインを上回っている。
ACEは、ラベル付けされた監視なしに効果的に適応することができ、代わりに自然な実行フィードバックを活用することができる。
論文 参考訳(メタデータ) (2025-10-06T09:30:18Z) - CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - Scalable In-Context Q-Learning [68.9917436397079]
textbfScalable textbfIn-textbfContext textbfQ-textbfLearning (textbfSICQL)を提案する。
textbfSICQLは動的プログラミングとワールドモデリングを利用して、ICRLを効率的な報酬とタスクの一般化に向けて制御する。
論文 参考訳(メタデータ) (2025-06-02T04:21:56Z) - PICASO: Permutation-Invariant Context Composition with State Space Models [98.91198288025117]
State Space Models (SSM) は、コンテキストのデータベースを固定次元の状態にマッピング可能にすることで、有望なソリューションを提供する。
本研究では,SSM力学から導かれる単純な数学的関係を,生のコンテキストトークンの連結効果を効率的に近似する複数の状態に構成する。
我々は,WikiText と MSMARCO をゼロショットと微調整の両方で評価し,平均5.4倍のスピードアップを楽しみながら最強の演奏ベースラインと一致できることを示す。
論文 参考訳(メタデータ) (2025-02-24T19:48:00Z) - Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。
本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。
提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。