論文の概要: ATLAS: All-round Testing of Long-context Abilities across Scales
- arxiv url: http://arxiv.org/abs/2605.28079v1
- Date: Wed, 27 May 2026 07:33:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.849547
- Title: ATLAS: All-round Testing of Long-context Abilities across Scales
- Title(参考訳): ATLAS: スケールの長いコンテキスト能力の全体テスト
- Authors: Deli Huang, Cunguang Wang, Hongyin Tang, Zhe Tang, Linsen Guo, Dongyu Ru, Ruoshi Yuan, Ziyue Zhu, Xiaoyu Li, Ziwen Wang, Chen Zhang, Anchun Gui, Wen Zan, Jiaqi Zhang, Xuezhi Cao, Jingang Wang, Xunliang Cai, Yixin Cao,
- Abstract要約: ATLASは、長文評価を長さ依存の能力プロファイルとして再定義するベンチマークフレームワークである。
ATLASは、(i)アプリケーションワークロードから基礎的な操作を分離する階層化された分類法、(ii)固定された8K-1Mグリッド上のスコア長曲線を統合するAUCスコア、(iii)不均衡なプロファイルをペナルライズする分類カテゴリー上の調和平均集計であるATLAScoreの3つの方法論に貢献する。
- 参考スコア(独自算出の注目度): 42.83200405769639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context language models now advertise context windows up to millions of tokens, yet evaluations typically report a single length or a narrow task family, masking two failure modes: performance can collapse as length grows, and strong retrieval need not transfer to downstream use. We present ATLAS, a benchmarking framework that redefines long-context evaluation as length-dependent capability profiling. ATLAS contributes three methodological principles:(i) a layered taxonomy separating foundational operations from application workloads so failures can be attributed, (ii) length-aware AUC scoring that integrates score-length curves over a fixed 8K-1M grid, replacing single-point metrics with full degradation profiles, and (iii) ATLAScore, a harmonic-mean aggregate over taxonomy categories that penalizes imbalanced profiles, with end-to-end uncertainty propagation from subset scores through the nonlinear final aggregate. We instantiate the framework across eight capability dimensions with nine auditable components and 6,438 instances, and evaluate 26 models. Gemini-3.1-Pro-Preview leads at 128K, Claude-Opus-4.6 leads at 1M. Rankings reshuffle substantially between ATLASscore@8K-128K and ATLASscore@8K-1M: 7 models move by at least two ranks, and the two taxonomy layers share only 61% of cross-model variance, with individual rank gaps up to 12 positions. These results support reporting long-context quality by capability and length, not by a single headline score.
- Abstract(参考訳): 長期コンテキスト言語モデルは、数百万のトークンまでコンテキストウィンドウを宣伝するが、評価は通常、単一の長さまたは狭いタスクファミリーを報告し、2つの障害モードを隠蔽する。
我々は長文評価を長文依存能力プロファイルとして再定義するベンチマークフレームワークATLASを提案する。
ATLASは3つの方法論の原則に貢献する。
(i)アプリケーションワークロードから基本的な操作を分離し、障害を原因とすることができる階層分類。
(II)固定8K-1Mグリッド上のスコア長曲線を統合した長さ認識型AUCスコアリング
3)ATLAScoreは,不均衡なプロファイルをペナライズする分類カテゴリー上の調和平均集合であり,非線型最終集合を通じて,サブセットスコアからエンドツーエンドの不確実性伝播を行う。
9つの監査可能なコンポーネントと6,438のインスタンスで8つの機能ディメンションでフレームワークをインスタンス化し、26のモデルを評価します。
Gemini-3.1-Pro-Previewは128K、Claude-Opus-4.6は1M。
ATLASscore@8K-128KとATLASscore@8K-1M: 7つのモデルが少なくとも2つのランクで移動し、2つの分類層はクロスモデルの差異の61%しか共有していない。
これらの結果は、1つの見出しスコアではなく、機能と長さによる長文品質の報告をサポートする。
関連論文リスト
- Fine-Tuning Over Architectural Complexity: Broad-Coverage PII Detection on PIIBench with DeBERTa [0.0]
PII検出システムは、狭いソースまたはドメイン境界内で頻繁に訓練され、異種テキストにデプロイする場合のカバレッジを制限する。
我々は,10個のソースデータセットに82個の保持されたエンティティタイプにまたがる修正されたマルチソースPIIBenchのモデル微調整について検討した。
直接トークン分類の微調整,ソース条件付き階層モデル(SC+H),3段階のカリキュラム拡張(SC+H+Curr)の3つのアプローチを評価した。
論文 参考訳(メタデータ) (2026-05-25T13:12:42Z) - Benchmarking Patent Embeddings: A Multi-Task Evaluation of 22 Models Across Retrieval, Classification, and Clustering [0.0]
我々は,情報検索,分類,クラスタリングという3つのタスクに対して,事前学習した22の埋め込みモデルを評価する。
2つの結果は、一般的な知恵に疑問を投げかけている。
論文 参考訳(メタデータ) (2026-05-22T23:51:13Z) - Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment [53.72927532626824]
わずか50個のサンプル(0.3%のデータ)のサブセットは、完全なベンチマークスコアと0.93以上のピアソン相関を達成可能であることを示す。
選好をより良く予測するために、選択したサブセットの回帰モデルを訓練し、0.98の相関を達成した。
これは回帰モデリングにおいて、よく計算されたサブセットが完全なベンチマークを予測し、量を超える品質を示すことを示している。
論文 参考訳(メタデータ) (2026-04-20T00:57:31Z) - APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
LLMベースの自律エージェントは、永続的な手続き記憶を欠いている。
我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークであるAPEX-EMを提案する。
論文 参考訳(メタデータ) (2026-03-31T00:24:56Z) - Binary Token-Level Classification with DeBERTa for All-Type MWE Identification: A Lightweight Approach with Linguistic Enhancement [1.8429656136522097]
本稿では,バイナリトークンレベルの分類,言語的特徴の統合,データ拡張を組み合わせた,MWE識別のための包括的アプローチを提案する。
我々のDeBERTa-v3大規模モデルは、CoAMデータセット上で69.8%のF1を達成し、このデータセットで最高の結果(Qwen-72B, 57.8% F1)を12ポイント上回り、パラメータは165倍少ない。
論文 参考訳(メタデータ) (2026-01-27T08:42:54Z) - Hierarchical Self-Supervised Representation Learning for Depression Detection from Speech [51.14752758616364]
音声による抑うつ検出 (SDD) は、従来の臨床評価に代わる有望で非侵襲的な代替手段である。
HAREN-CTCは,マルチタスク学習フレームワーク内でのクロスアテンションを用いて,多層SSL機能を統合した新しいアーキテクチャである。
このモデルはDAIC-WOZで0.81、MODMAで0.82の最先端マクロF1スコアを達成し、両方の評価シナリオで先行手法より優れている。
論文 参考訳(メタデータ) (2025-10-05T09:32:12Z) - Improving Long-Tailed Object Detection with Balanced Group Softmax and Metric Learning [0.0]
LVISv1データセットを用いた長期2次元物体検出の課題に対処する。
我々は、より高速なR-CNNアーキテクチャを2段階採用し、Balanced Group Softmaxフレームワークの拡張を提案する。
提案手法は,従来の24.0%のベンチマークを上回り,平均平均精度(mAP)が24.5%の新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-02T00:38:13Z) - LCFO: Long Context and Long Form Output Dataset and Benchmarking [50.44679440167169]
LCFO(Long Context and Form Output)ベンチマークは、段階的な要約と要約拡張機能を評価するための新しいフレームワークである。
LCFOは、長さの異なる3つの要約を持つ長い入力文書(平均長5k語)から構成される。
GPT-4o-miniは,要約処理と要約処理の両方において,自動システム間で最高の人間のスコアを得る。
論文 参考訳(メタデータ) (2024-12-11T10:35:45Z) - Balanced Classification: A Unified Framework for Long-Tailed Object
Detection [74.94216414011326]
従来の検出器は、分類バイアスによる長期データを扱う際の性能劣化に悩まされる。
本稿では,カテゴリ分布の格差に起因する不平等の適応的是正を可能にする,BAlanced CLassification (BACL) と呼ばれる統一フレームワークを提案する。
BACLは、さまざまなバックボーンとアーキテクチャを持つさまざまなデータセット間で、一貫してパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-08-04T09:11:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。