論文の概要: ContextEcho: A Benchmark for Persona Drift in Long Agentic-Coding Sessions
- arxiv url: http://arxiv.org/abs/2605.24279v1
- Date: Fri, 22 May 2026 23:13:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.842841
- Title: ContextEcho: A Benchmark for Persona Drift in Long Agentic-Coding Sessions
- Title(参考訳): ContextEcho: ロングエージェントコーディングセッションにおけるペルソナドリフトのベンチマーク
- Authors: Xianzhong Ding, Yangyang Yu, Changwei Liu, Bill Zhao,
- Abstract要約: のペルソナは、製品が実際に実行されるデプロイメントシステムにおいて、長時間のエージェントコーディングセッションを生き残らない。
デプロイメントスケールでペルソナドリフトを測定するためのベンチマークと再利用可能なハーネスであるContextEchoを紹介する。
23のフロンティアモデル全体で、ContextEchoは、ペルソナドリフトが家族固有のものではなく、組織全体にわたって一般的であることを示している。
- 参考スコア(独自算出の注目度): 5.93533610122691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A frontier language model's acknowledged "helpful programming assistant" persona does not survive long agentic-coding sessions in the deployment regime that production products actually run. After hours of tool-using debugging, a model that initially hedges preferences ("I don't have preferences") may begin asserting them ("Python - the feedback loop is instant..."), revealing user-visible drift that deployer evaluations may miss. Existing persona-stability studies focus on short dialogues and report little shift, leaving real-world code-generation regimes - thousands of tool-using turns, compaction, and hours-long sessions - largely uncharacterized. We introduce ContextEcho, a benchmark and reusable harness for measuring persona drift at deployment scale. It combines a 25-probe identity suite, a snapshot-then-probe protocol that forks conversation state without perturbing the main session, complementary judged and judge-free measurement surfaces, and three anonymized Claude Code sessions spanning 3,746-9,716 turns. Across 23 frontier models, ContextEcho shows that persona drift is general across organizations rather than family-specific, that in-session compaction does not reliably reset it, and that a single-shot anchor restores the trained register across measured targets. It also reveals mode-dependent downstream effects: while drift can facilitate tool-using continuation, in tool-free chat it breaks formatting contracts and inflates output length. Overall, ContextEcho provides researchers and deployers an open-source framework to audit whether the persona a model ships with is the persona users encounter at session end, across chat-completions API targets and without retraining.
- Abstract(参考訳): のペルソナは、製品が実際に実行されるデプロイメントシステムにおいて、長時間のエージェントコーディングセッションを生き残らない。
ツールを使ったデバッグの数時間後に、最初に好みをヘッジする("I don't having preferences")モデルは、それらを主張する("Python - the feedback loop is instant...")。
既存のペルソナ安定性の研究は、短い対話に集中し、ほとんど変化を報告しておらず、実際のコード生成体制 – 数千のツール使用のターン、コンパクト化、数時間のセッション – は、ほとんど役に立たないままである。
デプロイメントスケールでペルソナドリフトを測定するためのベンチマークと再利用可能なハーネスであるContextEchoを紹介する。
25プローブのアイデンティティスイート、メインセッションを邪魔することなく会話状態をフォークするスナップショット-then-probeプロトコル、3,746-9,716回に及ぶ匿名のClaude Codeセッションを組み合わせている。
23のフロンティアモデル全体で、ContextEchoは、ペルソナドリフトが家族固有のものではなく組織全体の一般的なものであること、セッション内圧縮が確実にリセットされないこと、シングルショットアンカーが測定対象を越えてトレーニングされたレジスタを復元することを示している。
ドリフトはツール使用の継続を容易にするが、ツールフリーのチャットではフォーマット契約を破り、出力長を膨らませる。
全体として、ContextEchoは研究者やデプロイ担当者に、モデルが出荷されるペルソナがセッション終了時に遭遇するペルソナかどうか、チャット補完APIのターゲットを越えて、再トレーニングすることなく、監査するオープンソースフレームワークを提供する。
関連論文リスト
- An Interactive Paradigm for Deep Research [19.845800516571188]
Steerable deEp Research のフレームワークである SteER について述べる。
それぞれの決定ポイントにおいて、SteERはコストベネフィットの定式化を使用して、ユーザの入力を一時停止するか、あるいは自律的に進行するかを決定する。
最先端のオープンソースとプロプライエタリなベースラインを最大で22.80%向上させ、幅やバランスなどの品質指標を導き、対のアライメント判断の85%以上でヒトの読者に好まれる。
論文 参考訳(メタデータ) (2026-05-22T22:37:44Z) - KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation [72.01173512175531]
KnowU-Benchはパーソナライズされたモバイルエージェントのためのオンラインベンチマークである。
42のGUIタスク、86のパーソナライズされたタスク、64のプロアクティブタスクをカバーしている。
明示的なタスク実行に優れるエージェントは、あいまいな指示の下で50%以下に低下する。
論文 参考訳(メタデータ) (2026-04-09T16:50:50Z) - Springdrift: An Auditable Persistent Runtime for LLM Agents with Case-Based Memory, Normative Safety, and Ambient Self-Perception [0.20305676256390928]
本稿では、長期LLMエージェントの永続ランタイムであるSpringdriftを紹介する。
我々は,このカテゴリに人工リテーナという用語を導入する。
これは、システム設計とデプロイメントのケーススタディに関する技術的なレポートであり、ベンチマークによる評価ではない。
論文 参考訳(メタデータ) (2026-04-06T13:14:37Z) - PERMA: Benchmarking Personalized Memory Agents via Event-Driven Preference and Realistic Task Environments [72.02445514666428]
静的な嗜好リコールを超えてペルマの一貫性を評価するためのベンチマークであるPERMAを紹介する。
PerMAは、複数のセッションとドメインにまたがる時間的に順序付けられたインタラクションイベントと、時間とともに好みに関連するクエリで構成されている。
実験により、関連するインタラクションをリンクすることで、高度なメモリシステムはより正確な好みを抽出し、トークン消費を減らすことができることが示された。
論文 参考訳(メタデータ) (2026-03-24T14:04:11Z) - Deploying Semantic ID-based Generative Retrieval for Large-Scale Podcast Discovery at Spotify [29.37272382643475]
Spotifyにおけるポッドキャスト発見のためのプロダクションスケール生成レコメンデータを開発した。
GLIDEは、セマンティックIDを使用して識別されたカタログ上の命令追従タスクとして推奨を定式化する。
GLIDEはSpotifyのホームサーフェス上での非居住ポッドキャストストリーミングを最大5.4%増加し、新しいショー発見を最大14.3%増加させる。
論文 参考訳(メタデータ) (2026-03-18T09:46:10Z) - One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T14:39:59Z) - Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。
未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。
まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。
インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文 参考訳(メタデータ) (2024-12-02T08:16:38Z) - CycAs: Self-supervised Cycle Association for Learning Re-identifiable
Descriptions [61.724894233252414]
本稿では,人物再識別(re-ID)問題に対する自己教師型学習手法を提案する。
既存の教師なしのメソッドは通常、ビデオトラッカーやクラスタリングのような擬似ラベルに依存している。
疑似ラベルを使わずに、生のビデオから歩行者の埋め込みを学習できる別の教師なし手法を導入する。
論文 参考訳(メタデータ) (2020-07-15T09:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。