論文の概要: Evaluating Temporal Consistency in Multi-Turn Language Models
- arxiv url: http://arxiv.org/abs/2604.23051v1
- Date: Fri, 24 Apr 2026 22:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.121312
- Title: Evaluating Temporal Consistency in Multi-Turn Language Models
- Title(参考訳): 多言語モデルにおける時間整合性の評価
- Authors: Yash Kumar Atri, Steven L. Johnson, Tom Hartvigsen,
- Abstract要約: 言語モデルは、ユーザが独立してではなく、時間とともに事実を判断する、インタラクティブな設定にますますデプロイされています。
我々はこの課題を時間的スコープ安定性のレンズを通して研究する。
制御されたマルチターン相互作用における時間的スコープの挙動を分離する大規模診断ベンチマークであるChronoScopeを紹介する。
- 参考スコア(独自算出の注目度): 5.535674707194489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are increasingly deployed in interactive settings where users reason about facts over time rather than in isolation. In such scenarios, correct behavior requires models to maintain and update implicit temporal assumptions established earlier in a conversation. We study this challenge through the lens of temporal scope stability: the ability to preserve, override, or transfer time-scoped factual context across dialogue turns. We introduce ChronoScope, a large-scale diagnostic benchmark designed to isolate temporal scope behavior in controlled multi-turn interactions, comprising over one million deterministically generated question chains grounded in Wikidata. ChronoScope evaluates whether models can correctly retain inferred temporal scope when follow-up questions omit explicit time references, spanning implicit carryover, explicit scope switching, cross-entity transfer, and longer temporal trajectories. Through extensive evaluation of state-of-the-art language models, we find that temporal scope stability is frequently violated in controlled multi-turn settings, with models often drifting toward present-day assumptions despite correct underlying knowledge. These failures intensify with interaction length and persist even under oracle context conditions, revealing a gap between single-turn factual accuracy and coherent temporal reasoning under sequential interaction. We make our dataset and evaluation suite publicly available at https://github.com/yashkumaratri/ChronoScope
- Abstract(参考訳): 言語モデルは、ユーザが独立してではなく、時間とともに事実を判断する、インタラクティブな設定にますますデプロイされています。
このようなシナリオでは、正しい振る舞いは、会話の初期に確立された暗黙の時間的仮定を維持し、更新するモデルを必要とする。
本研究では,この課題を時間的スコープ安定性のレンズを用いて研究する。
Wikidataをベースとした100万以上の質問チェーンから構成される,制御されたマルチターンインタラクションにおける時間的スコープ動作の分離を目的とした大規模診断ベンチマークであるChronoScopeを紹介する。
ChronoScopeは、フォローアップ質問が明示的な時間参照を省略し、暗黙的な転送、明示的なスコープ切り替え、クロスエンタリティ転送、より長い時間的トラジェクトリなど、モデルが推論された時間的スコープを正しく保持できるかどうかを評価する。
現状の言語モデルを広範囲に評価することにより、制御されたマルチターン設定では時間的スコープの安定性が頻繁に侵害されることが判明した。
これらの失敗は、相互作用長を増大させ、オラクルの文脈条件下でさえ持続し、一ターンの事実精度と連続的な相互作用の下での一貫性のある時間的推論のギャップを明らかにする。
データセットと評価スイートをhttps://github.com/yashkumaratri/ChronoScopeで公開しています。
関連論文リスト
- From Observations to States: Latent Time Series Forecasting [65.98504021691666]
本稿では,TSFを観測回帰から潜時予測に移行する新しいパラダイムであるLatent Time Series Forecasting(LatentTSF)を提案する。
具体的には、LatentTSFはAutoEncoderを使用して、各段階での観測結果を高次元の潜在状態空間に投影する。
提案する潜伏目標は,予測潜伏状態と地道状態と観測値との相互情報を暗黙的に最大化する。
論文 参考訳(メタデータ) (2026-01-30T20:39:44Z) - Not in Sync: Unveiling Temporal Bias in Audio Chat Models [59.146710538620816]
大規模音声言語モデル(LALM)は、音声理解やマルチモーダル推論にますます応用されている。
LALMにおける時間バイアスに関する最初の体系的研究を行い,その時間スタンプ予測における重要な限界を明らかにした。
論文 参考訳(メタデータ) (2025-10-14T06:29:40Z) - Time-RA: Towards Time Series Reasoning for Anomaly with LLM Feedback [55.284574165467525]
Time-RA(Time-Series Reasoning for Anomaly)は、時系列異常検出を生成的、推論集約的なタスクに変換する。
また,実世界のマルチモーダルベンチマークデータセットであるRATs40Kを導入する。
論文 参考訳(メタデータ) (2025-07-20T18:02:50Z) - Counterfactual-Consistency Prompting for Relative Temporal Understanding in Large Language Models [24.586475741345616]
本稿では, 大規模言語モデル(LLM)における時間的不整合の問題に対処し, 新たな対実的プロンプト手法を提案する。
提案手法は, 対実的な質問を生成し, 集合的制約を強制し, モデルの一貫性を高める。
提案手法を複数のデータセット上で評価し、明示的で暗黙的なイベントのイベント順序付けと時間的コモンセンス理解の大幅な改善を実証した。
論文 参考訳(メタデータ) (2025-02-17T04:37:07Z) - StreamLTS: Query-based Temporal-Spatial LiDAR Fusion for Cooperative Object Detection [0.552480439325792]
我々は、広く使われているデータセットOPV2VとDairV2Xを適応させる、TA-COOD(Time-Aligned Cooperative Object Detection)を提案する。
実験結果から, 最先端の高密度モデルと比較して, 完全スパースフレームワークの優れた効率性が確認された。
論文 参考訳(メタデータ) (2024-07-04T10:56:10Z) - From Link Prediction to Forecasting: Addressing Challenges in Batch-based Temporal Graph Learning [0.716879432974126]
バッチ指向評価の適合性はデータセットの特性に依存することを示す。
連続時間時間グラフの場合、固定サイズのバッチは異なる期間の時間ウィンドウを生成し、不整合な動的リンク予測タスクをもたらす。
離散時間時間時間グラフの場合、バッチのシーケンスはデータに存在しない時間的依存関係を付加することができる。
論文 参考訳(メタデータ) (2024-06-07T12:45:12Z) - On the Identification of Temporally Causal Representation with Instantaneous Dependence [50.14432597910128]
時間的因果表現学習は時系列観測から潜在因果過程を特定することを目的としている。
ほとんどの方法は、潜在因果過程が即時関係を持たないという仮定を必要とする。
我々は,インスタントtextbfOus textbfLatent dynamics のための textbfIDentification フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T08:08:05Z) - Instructed Diffuser with Temporal Condition Guidance for Offline
Reinforcement Learning [71.24316734338501]
テンポラリ・コンポラブル・ディフューザ(TCD)を用いた実効時間条件拡散モデルを提案する。
TCDは、相互作用シーケンスから時間情報を抽出し、時間条件で生成を明示的にガイドする。
提案手法は,従来のSOTAベースラインと比較して最高の性能を達成または一致させる。
論文 参考訳(メタデータ) (2023-06-08T02:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。