Fugu-MT 論文翻訳(概要): ATANT v1.1: Positioning Continuity Evaluation Against Memory, Long-Context, and Agentic-Memory Benchmarks

論文の概要: ATANT v1.1: Positioning Continuity Evaluation Against Memory, Long-Context, and Agentic-Memory Benchmarks

arxiv url: http://arxiv.org/abs/2604.10981v2
Date: Sun, 19 Apr 2026 17:25:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 19:27:32.38583
Title: ATANT v1.1: Positioning Continuity Evaluation Against Memory, Long-Context, and Agentic-Memory Benchmarks
Title（参考訳）: ATANT v1.1: メモリ、長期コンテキスト、エージェントメモリベンチマークに対する連続性評価の位置決め
Authors: Samuel Sameer Tanguturi,
Abstract要約: ATANT v1.0は、7つの要求された特性を持つシステムプロパティとして連続性を定義した。構造解析により、これらのベンチマークはいずれも v1.0 で定義された連続性を測定するものではないことが示される。 96%のATANT累積スコアと合わせて8.8%のLOCOMOスコアをキャリブレーションペアとして公開しています。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: ATANT v1.0 (arXiv:2604.06710) defined continuity as a system property with 7 required properties and introduced a 10-checkpoint, LLM-free evaluation methodology validated on a 250-story corpus. Since publication, a recurring reviewer and practitioner question has concerned not the framework itself but its relationship to a wider set of memory evaluations: LOCOMO, LongMemEval, BEAM, MemoryBench, Zep's evaluation suite, Letta/MemGPT's evaluations, and RULER. This companion paper, v1.1, does not modify the v1.0 standard. It closes a related-work gap that v1.0 left brief under page limits. We show by structural analysis that none of these benchmarks measures continuity as defined in v1.0: of the 7 required properties, the median existing eval covers 1 property, the mean covers 0.43 when partial credit is scored at 0.5, and no eval covers more than 2. We provide a cell-by-cell property-coverage matrix, identify methodological defects specific to each benchmark (including an empty-gold scoring bug in the LOCOMO reference implementation that renders 23% of its corpus unscorable by construction), and publish our reference implementation's LOCOMO score (8.8%) alongside the structural reason that number is uninformative about continuity. We publish our 8.8% LOCOMO score alongside our 96% ATANT cumulative-scale score as a calibration pair: the 87-point divergence is evidence that the two benchmarks measure different properties, not that one system is an order of magnitude better than another. The position v1.1 takes is not adversarial: each benchmark measures a real capability. The claim is that none of them can adjudicate continuity, and conflating them with continuity evaluation has led the field to under-invest in the properties v1.0 names.
Abstract（参考訳）: ATANT v1.0 (arXiv:2604.06710) は、連続性を7つの要求された特性を持つシステム特性として定義し、250階建てのコーパスで検証された10チェックポイントのLCMフリー評価手法を導入した。出版以来、レビュアーと実践者の質問は、フレームワーク自体ではなく、LOCOMO、LongMemEval、BEAM、MemoryBench、Zepの評価スイート、Leta/MemGPTの評価、RULERといった、より広範なメモリ評価との関係を懸念してきた。この共用紙 v1.1 は v1.0 標準を変更しない。これは、v1.0がページ制限下で簡潔に残した関連する作業ギャップを埋める。これらのベンチマークはいずれもv1.0で定義された連続性を測定するものではなく、必要となる7つの特性のうち、中央のEvalが1つの特性をカバーし、平均値が0.5のときに0.43をカバーし、evalが2以上の値をカバーしない。セル・バイ・セル・プロパティ・カバレッジ・マトリックス(セル・バイ・セル・プロパティ・カバー・マトリックス)を提供し、各ベンチマークに特有の方法論上の欠陥(LOCOMO参照実装における空のゴールスコア・バグを含む)を特定し、参照実装のLOCOMOスコア(8.8%)を、連続性に関して非形式的であるという構造的理由とともに公開する。 96%のATANT累積スコアと合わせて8.8%のLOCOMOスコアをキャリブレーションペアとして公開しています。位置 v1.1 は逆ではなく、各ベンチマークは実際の能力を測定する。この主張は、いずれも連続性を代入することができず、連続性評価と混同することで、フィールドは性質 v1.0 の名前の過小評価へと導かれるというものである。

関連論文リスト

ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。 IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文参考訳（メタデータ） (2026-04-09T10:26:32Z)
ATANT: An Evaluation Framework for AI Continuity [0.0]
本稿では,AIシステムの連続性を測定するためのオープン評価フレームワークATANTを提案する。本稿では,6つの生命領域にまたがる1,835の検証質問を含む250のストーリーからなる物語テストコーパスを提案する。 ATANTは、システムに依存しない、モデルに依存しない、連続性システムの構築と検証のためのシーケンシャルな方法論として設計されている。
論文参考訳（メタデータ） (2026-04-08T06:04:51Z)
Are Benchmark Tests Strong Enough? Mutation-Guided Diagnosis and Augmentation of Regression Suites [49.16055123488827]
十分に強力なテストスイートは、報告された成功率を膨らませながら、妥当だが意味的に正しくないパッチを認めることができる。 STINGは、意味的に変化するプログラムの変種を診断ストレス要因として利用する、ターゲットテスト拡張のためのフレームワークである。 STINGは211インスタンスにまたがる1014の検証テストを生成し、パッチリージョンラインとブランチカバレッジを10.8%、9.5%向上させた。
論文参考訳（メタデータ） (2026-04-02T01:13:40Z)
BenchScope: How Many Independent Signals Does Your Benchmark Provide? [0.0]
測定幅の高速・集団条件上界診断法であるエフェクト・ディメンダリティ(ED)を導入する。 EDは8ドメインにわたる22のベンチマークと8,400以上のモデル評価に対して、インスタンスごとの粒度で適用される。相対EDランキングは一致次元制御の下で安定であり、EDは冗長なスイートコンポーネントにフラグを付けることができることを示す。
論文参考訳（メタデータ） (2026-03-31T07:28:41Z)
Graph-Native Cognitive Memory for AI Agents: Formal Belief Revision Semantics for Versioned Memory Architectures [0.6091702876917279]
Kumihoは、形式的信念修正セマンティクスに基づくグラフネイティブな認知記憶アーキテクチャである。アーキテクチャは、二重ストアモデル(Redisワーキングメモリ、Neo4j長期グラフ)を実装し、ハイブリッドフルテキストとベクトル検索を備える。
論文参考訳（メタデータ） (2026-03-18T00:59:49Z)
vla-eval: A Unified Evaluation Harness for Vision-Language-Action Models [58.633451339058986]
VLAモデルは一般的に、各モデルリポジトリによって独立して維持されるベンチマークスクリプト毎に評価される。本稿では、ベンチマーク実行からモデル推論を分離するオープンソースの評価ハーネスであるvla evalを紹介する。完全な評価では、vla eval serveとvla eval runの2つのコマンドしか必要としない。
論文参考訳（メタデータ） (2026-03-14T14:38:53Z)
QEDBENCH: Quantifying the Alignment Gap in Automated Evaluation of University-Level Mathematical Proofs [29.26861081722613]
我々は, 標準の「LLM-as-a-Judge」プロトコルが, 上学部から初期大学院レベルの数学に適用された場合, 体系的なアライメントギャップに悩まされることを実証した。 QEDBenchは、大学レベルの数学における人間の専門家とのアライメントを測定するための、最初の大規模デュアルルーブリックアライメントベンチマークである。我々は,Claude Opus 4.5,DeepSeek-V3,Qwen 2.5 Max,Llama 4 Maverickなどのフロンティア評価が有意な正のバイアスを示すことを明らかにした。
論文参考訳（メタデータ） (2026-02-24T07:23:28Z)
Assessing LLM Reliability on Temporally Recent Open-Domain Questions [15.456770184839726]
大規模言語モデル(LLM)は、オープンドメインの質問応答のためにますます多くデプロイされている。我々は4つのオープンソース LLM が最近のReddit の質問 15,000 に対してどのように反応するかを調査した。すべてのモデルは、8%のBLEU-1オーバーラップにもかかわらず、参照と99%以上のコサイン類似性を達成している。
論文参考訳（メタデータ） (2026-01-17T21:33:27Z)
TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文参考訳（メタデータ） (2025-09-25T13:04:29Z)
Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。 FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文参考訳（メタデータ） (2023-07-13T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。