Fugu-MT 論文翻訳(概要): ATANT: An Evaluation Framework for AI Continuity

論文の概要: ATANT: An Evaluation Framework for AI Continuity

arxiv url: http://arxiv.org/abs/2604.06710v1
Date: Wed, 08 Apr 2026 06:04:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-09 17:30:51.35886
Title: ATANT: An Evaluation Framework for AI Continuity
Title（参考訳）: ATANT: AI連続性評価フレームワーク
Authors: Samuel Sameer Tanguturi,
Abstract要約: 本稿では,AIシステムの連続性を測定するためのオープン評価フレームワークATANTを提案する。本稿では,6つの生命領域にまたがる1,835の検証質問を含む250のストーリーからなる物語テストコーパスを提案する。 ATANTは、システムに依存しない、モデルに依存しない、連続性システムの構築と検証のためのシーケンシャルな方法論として設計されている。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present ATANT (Automated Test for Acceptance of Narrative Truth), an open evaluation framework for measuring continuity in AI systems: the ability to persist, update, disambiguate, and reconstruct meaningful context across time. While the AI industry has produced memory components (RAG pipelines, vector databases, long context windows, profile layers), no published framework formally defines or measures whether these components produce genuine continuity. We define continuity as a system property with 7 required properties, introduce a 10-checkpoint evaluation methodology that operates without an LLM in the evaluation loop, and present a narrative test corpus of 250 stories comprising 1,835 verification questions across 6 life domains. We evaluate a reference implementation across 5 test suite iterations, progressing from 58% (legacy architecture) to 100% in isolated mode (250 stories) and 100% in 50-story cumulative mode, with 96% at 250-story cumulative scale. The cumulative result is the primary measure: when 250 distinct life narratives coexist in the same database, the system must retrieve the correct fact for the correct context without cross-contamination. ATANT is system-agnostic, model-independent, and designed as a sequenced methodology for building and validating continuity systems. The framework specification, example stories, and evaluation protocol are available at https://github.com/Kenotic-Labs/ATANT. The full 250-story corpus will be released incrementally.
Abstract（参考訳）: 我々は、AIシステムの連続性を測定するオープンな評価フレームワークであるATANT(Automated Test for Acceptance of Narrative Truth)を紹介します。 AI産業はメモリコンポーネント(RAGパイプライン、ベクトルデータベース、長いコンテキストウィンドウ、プロファイル層)を作成しているが、これらのコンポーネントが真の連続性を生み出すかどうかを正式に定義または測定するフレームワークは存在しない。本研究では, 7 つの特性を持つシステム特性として連続性を定義し, 評価ループに LLM を含まない 10 個のチェックポイント評価手法を導入し, 6 つの生命領域にわたる1,835 個の検証質問からなる250 個のストーリーからなる物語的テストコーパスを提案する。 5つのテストスイートのイテレーションで参照実装を評価し、58%(レガシーアーキテクチャ)から100%(250ストーリー)、100%(50ストーリー)の累積モードで、96%(250ストーリー)の累積スケールで実行した。 250の異なるライフナラティブが同じデータベースに共存する場合、システムはクロス汚染なしに正しいコンテキストの正しい事実を検索しなければならない。 ATANTは、システムに依存しない、モデルに依存しない、連続性システムの構築と検証のためのシーケンシャルな方法論として設計されている。フレームワーク仕様、サンプルストーリ、評価プロトコルはhttps://github.com/Kenotic-Labs/ATANT.comで公開されている。全250階建てコーパスがインクリメンタルにリリースされる。

関連論文リスト

Context Engineering: A Practitioner Methodology for Structured Human-AI Collaboration [0.0]
本稿では、AIツールのプロンプトに付随する完全な情報ペイロードの組み立て、宣言、シークエンシングのための構造化手法であるContext Engineeringを紹介する。 4つのAIツール間で200のドキュメント化されたインタラクションに関する観察的研究では、不完全なコンテキストがイテレーションサイクルの72%に関連付けられている。構造化コンテキストアセンブリは、タスク毎の平均イテレーションサイクルを3.8から2.0に削減し、ファーストパスの受け入れを32%から55%に改善した。
論文参考訳（メタデータ） (2026-04-05T20:30:44Z)
Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文参考訳（メタデータ） (2025-12-31T13:55:54Z)
DramaBench: A Six-Dimensional Evaluation Framework for Drama Script Continuation [3.496854427764583]
ドラマスクリプトの継続には、キャラクターの一貫性を維持し、プロットを忠実に前進させ、劇的な構造能力を維持するモデルが必要である。 6次元にわたるドラマ脚本の連続性を評価するための,最初の大規模ベンチマークであるDramaBenchを紹介する。
論文参考訳（メタデータ） (2025-12-22T04:03:01Z)
What Matters in Evaluating Book-Length Stories? A Systematic Study of Long Story Evaluation [59.626962970198434]
最初の大規模ベンチマークであるLongStoryEvalを導入し,平均121Kトークン(最大397K)の600冊を新たに発行した。ユーザによるすべての側面の分析により、評価基準構造を提案し、最も重要な側面を識別するための実験を行う。評価手法として,アグリゲーションベース,インクリメンタル更新,要約ベースの評価の3つのタイプの有効性を比較した。
論文参考訳（メタデータ） (2025-12-14T20:53:29Z)
Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings [77.20838441870151]
オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。我々は,GPT-4が生成したコミットメッセージと,人間の専門家が編集したコミットメッセージからなる57対のデータセットを収集した。以上の結果から,編集距離が最も高い相関性を示すのに対し,BLEUやMETEORなどの類似度は低い相関性を示すことがわかった。
論文参考訳（メタデータ） (2024-10-15T20:32:07Z)
T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。 T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-12-12T06:29:04Z)
Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文参考訳（メタデータ） (2022-07-15T22:41:30Z)
Natural Answer Generation: From Factoid Answer to Full-length Answer using Grammar Correction [39.40116590327074]
本稿では,与えられた質問と抽出されたファクトイド回答を入力として出力するシステムを提案する。トランスフォーマーベースのGrammar Error Correction Model GECToR (2020) は、処理後のステップとして、流速を改善するために使用される。本システムと (i) 修正ポインタジェネレータ (SOTA) と (ii) ファインチューニングダイアロGPT との比較を行った。
論文参考訳（メタデータ） (2021-12-07T17:39:21Z)
$Q^{2}$: Evaluating Factual Consistency in Knowledge-Grounded Dialogues via Question Generation and Question Answering [38.951535576102906]
ナレッジベース対話モデルにおける事実整合性のための自動評価指標を提案する。当社のメトリクスは、共参照解像度と自然言語推論機能を利用しています。 We curate a novel dataset of state-of-the-art dialogue system outputs for the Wizard-of-Wikipedia dataset。
論文参考訳（メタデータ） (2021-04-16T16:21:16Z)
Yseop at SemEval-2020 Task 5: Cascaded BERT Language Model for Counterfactual Statement Analysis [0.0]
我々は、分類タスクにBERTベースモデルを使用し、シーケンス識別タスクを処理するために、ハイブリッドBERTマルチ層パーセプトロンシステムを構築した。本実験により, 構文的・意味的特徴の導入は, 分類タスクにおけるシステム改善にはほとんど寄与しないが, それらの特徴を線形入力として用いて, モデルのシーケンス決定能力を微調整することにより, 2次タスクにおいてBiLSTM-CRFのような他の類似の複雑なシステムよりも優れていることを示す。
論文参考訳（メタデータ） (2020-05-18T08:19:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。