論文の概要: The Narrative Continuity Test: A Conceptual Framework for Evaluating Identity Persistence in AI Systems
- arxiv url: http://arxiv.org/abs/2510.24831v2
- Date: Sat, 01 Nov 2025 10:06:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 14:12:27.997342
- Title: The Narrative Continuity Test: A Conceptual Framework for Evaluating Identity Persistence in AI Systems
- Title(参考訳): 物語的連続性テスト:AIシステムにおけるアイデンティティの持続性を評価するための概念的フレームワーク
- Authors: Stefano Natangelo,
- Abstract要約: Narrative Continuity Test (NCT) は、AIシステムにおけるアイデンティティの永続化とダイアクロニックコヒーレンスを評価するためのフレームワークである。
NCTは、Situated Memory、Goal Persistence、Autonomous Self-Correction、Stylistic & Semantic stability、Persona/Role Continuityの5つの必要軸を定義している。
ケース分析では、ステートレス推論の下で予測可能な連続性障害が示される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence systems based on large language models (LLMs) can now generate coherent text, music, and images, yet they operate without a persistent state: each inference reconstructs context from scratch. This paper introduces the Narrative Continuity Test (NCT) -- a conceptual framework for evaluating identity persistence and diachronic coherence in AI systems. Unlike capability benchmarks that assess task performance, the NCT examines whether an LLM remains the same interlocutor across time and interaction gaps. The framework defines five necessary axes -- Situated Memory, Goal Persistence, Autonomous Self-Correction, Stylistic & Semantic Stability, and Persona/Role Continuity -- and explains why current architectures systematically fail to support them. Case analyses (Character.\,AI, Grok, Replit, Air Canada) show predictable continuity failures under stateless inference. The NCT reframes AI evaluation from performance to persistence, outlining conceptual requirements for future benchmarks and architectural designs that could sustain long-term identity and goal coherence in generative models.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく人工知能システムは、コヒーレントなテキスト、音楽、画像を生成することができるが、それらは永続的な状態なしに動作し、各推論はコンテキストをゼロから再構築する。
本稿では,AIシステムにおけるアイデンティティの持続性とダイアクラニックコヒーレンスを評価するための概念的フレームワークであるナラティブ継続性テスト(NCT)を紹介する。タスクパフォーマンスを評価する機能ベンチマークとは異なり,NCTは,LLMが時間と相互作用のギャップをまたいで同一のインターロケータのままであるかどうかを検証する。このフレームワークは,Situated Memory, Goal Persistence, Self-Correction, Stylistic & Semantic Stability, Persona/Role Continuityの5つの必要軸を定義し,現在のアーキテクチャが体系的にそれらをサポートすることができない理由を説明する。
ケースアナリティクス (Character)。
\,AI,Grok,Replit,Air Canada)は、ステートレス推論の下で予測可能な連続性障害を示す。
NCTはAI評価をパフォーマンスから永続性に再設定し、生成モデルにおける長期的なアイデンティティとゴールコヒーレンスを維持する可能性のある将来のベンチマークとアーキテクチャ設計の概念要件を概説している。
関連論文リスト
- PISA: A Pragmatic Psych-Inspired Unified Memory System for Enhanced AI Agency [50.712873697511206]
既存の作業は、多種多様なタスクへの適応性に欠けることが多く、AIエージェントメモリの構成的およびタスク指向の役割を見落としている。
PISAは,メモリを構築的かつ適応的なプロセスとして扱う,実践的でサイコにインスパイアされた統合メモリシステムである。
既存のLOCOMOベンチマークと新たに提案したデータ解析タスクのAggQAベンチマークに基づいて,PISAが適応性と長期的知識保持を大幅に向上させることで,新たな最先端技術を設定することを確認した。
論文 参考訳(メタデータ) (2025-10-12T10:34:35Z) - Analyzing Latent Concepts in Code Language Models [10.214183897113118]
グローバルなポストホック解釈可能性フレームワークであるコード概念分析(CoCoA)を提案する。
CoCoAは、コード言語モデルの表現空間における創発的語彙、構文、意味構造を明らかにする。
本稿では,静的解析ツールをベースとした構文アライメントと,プロンプトエンジニアリングによる大規模言語モデルを組み合わせたハイブリッドアノテーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-01T03:53:21Z) - Game-Time: Evaluating Temporal Dynamics in Spoken Language Models [93.844257719952]
時間的能力を評価するためにGame-Time Benchmarkフレームワークを導入します。
多様なSLMモデルについて評価した結果,性能の相違が明らかとなった。
GameTime Benchmarkは、より時間的に認識された会話型AIに向けた将来の研究を導くための基盤を提供する。
論文 参考訳(メタデータ) (2025-09-30T15:23:39Z) - CRACQ: A Multi-Dimensional Approach To Automated Document Assessment [0.0]
CRACQは、コヒーレンス、リゴール、適切性、完全性、品質といった、f i v e特有の特性で文書を評価するのに適した多次元評価フレームワークである。
言語的、意味的、構造的なシグナルを累積評価に統合し、全体的および特性レベルの分析を可能にする。
論文 参考訳(メタデータ) (2025-09-26T17:01:54Z) - Modeling and Visualization Reasoning for Stakeholders in Education and Industry Integration Systems: Research on Structured Synthetic Dialogue Data Generation Based on NIST Standards [3.5516803380598074]
本研究では,教育産業統合(EII)システムにおける利害関係者の相互作用の構造的複雑さと意味的あいまいさに対処する。
我々は,NIST(National Institute of Standards and Technology)合成データ品質フレームワークに基づく構造モデリングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-06-20T12:37:43Z) - EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World? [52.99661576320663]
マルチモーダル・大規模言語モデル(MLLM)は、自我中心の視覚応用において画期的な進歩を遂げた。
EOC-Benchは、動的自我中心のシナリオにおいて、オブジェクト中心の具体的認識を体系的に評価するために設計された革新的なベンチマークである。
EOC-Benchに基づく各種プロプライエタリ,オープンソース,オブジェクトレベルのMLLMの総合評価を行う。
論文 参考訳(メタデータ) (2025-06-05T17:44:12Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - WHEN TO ACT, WHEN TO WAIT: Modeling the Intent-Action Alignment Problem in Dialogue [23.39224016484548]
対話システムは、ユーザ発話が意味論的に完全であると同時に、適切なシステムアクションに必要な明快さと完全さが欠如している場合に失敗することが多い。
我々は、UserLLMとAgentLLMの対話を通して非対称情報ダイナミクスをモデル化するフレームワークSTORMを提案する。
コントリビューションには,(1)対話システムにおける非対称情報処理の形式化,(2)協調理解の進化をモデル化する意図形成,(3)タスクパフォーマンスとともに内部認知改善を測定する評価指標などが含まれている。
論文 参考訳(メタデータ) (2025-06-02T17:11:10Z) - Detecting Neurocognitive Disorders through Analyses of Topic Evolution and Cross-modal Consistency in Visual-Stimulated Narratives [83.15653194899126]
神経認知障害(NCD)の早期発見は、時間的介入と疾患管理に不可欠である。
現在のVSNベースのNCD検出法は主にボトムアップ、刺激駆動認知プロセスと密接に結びついている言語マイクロ構造に焦点を当てている。
本稿では,話題の時間的変化を追跡する動的トピックモデル(DTM)と,物語と視覚刺激の相互整合性を測定するテキスト画像時間アライメントネットワーク(TITAN)の2つの新しいマクロ構造手法を提案する。
論文 参考訳(メタデータ) (2025-01-07T12:16:26Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。