論文の概要: Dialogue Telemetry: Turn-Level Instrumentation for Autonomous Information Gathering
- arxiv url: http://arxiv.org/abs/2601.09570v1
- Date: Wed, 14 Jan 2026 15:39:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.452997
- Title: Dialogue Telemetry: Turn-Level Instrumentation for Autonomous Information Gathering
- Title(参考訳): 対話テレメトリ:自律的な情報収集のためのターンレベル計測装置
- Authors: Dimitris Panagopoulos, Adolfo Perrusquia, Weisi Guo,
- Abstract要約: 本稿では,各質問応答交換後に2つのモデルに依存しない信号を生成する測定フレームワークである対話テレメトリ(DT)を紹介する。
我々は,大規模言語モデル(LLM)に基づくシミュレーションを用いて,制御された検索・救助(SAR)に触発されたインタビューにおけるDTの有効性を検証する。
DTは解釈可能なターンレベルのインスツルメンテーションを提供する。
- 参考スコア(独自算出の注目度): 10.11623842889507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous systems conducting schema-grounded information-gathering dialogues face an instrumentation gap, lacking turn-level observables for monitoring acquisition efficiency and detecting when questioning becomes unproductive. We introduce Dialogue Telemetry (DT), a measurement framework that produces two model-agnostic signals after each question-answer exchange: (i) a Progress Estimator (PE) quantifying residual information potential per category (with a bits-based variant), and (ii) a Stalling Index (SI) detecting an observable failure signature characterized by repeated category probing with semantically similar, low-marginal-gain responses. SI flags this pattern without requiring causal diagnosis, supporting monitoring in settings where attributing degradation to specific causes may be impractical. We validate DT in controlled search-and-rescue (SAR)-inspired interviews using large language model (LLM)-based simulations, distinguishing efficient from stalled dialogue traces and illustrating downstream utility by integrating DT signals into a reinforcement learning (RL) policy. Across these settings, DT provides interpretable turn-level instrumentation that improves policy performance when stalling carries operational costs.
- Abstract(参考訳): スキーマ付き情報収集対話を行う自律システムは、計測ギャップに直面し、取得効率の監視や質問が非生産的になった時の検出のためのターンレベルのオブザーバブルが欠如している。
対話テレメトリ(DT: Dialogue Telemetry)は,質問応答交換後に2つのモデルに依存しない信号を生成する測定フレームワークである。
一 カテゴリーごとの残留情報ポテンシャル(ビットベースの変種)を定量化する進歩推定器(PE)及び
2)Stalling Index(SI)は,セマンティックに類似した低マージ利得応答を繰り返すカテゴリを特徴とする,観測可能な障害署名を検出する。
SIは因果診断を必要とせずにこのパターンをフラグし、特定の原因による劣化が現実的でない可能性のある環境でのモニタリングをサポートする。
我々は,大規模言語モデル(LLM)に基づくシミュレーションを用いて,制御された検索・救助(SAR)にインスパイアされたインタビューにおけるDTの有効性を検証する。
これらの設定全体にわたって、DTは解釈可能なターンレベルのインスツルメンテーションを提供し、ストールが運用コストを負担する際のポリシーパフォーマンスを改善する。
関連論文リスト
- Lost in the Noise: How Reasoning Models Fail with Contextual Distractors [57.31788955167306]
推論モデルとエージェントAIシステムの最近の進歩は、多様な外部情報への依存度を高めている。
NoisyBenchは、RAGの11のデータセット、推論、アライメント、ツール使用タスクに対して、モデルロバスト性を体系的に評価する包括的なベンチマークである。
評価の結果,文脈的障害に直面した場合,最先端モデルでは最大80%の破滅的な性能低下がみられた。
論文 参考訳(メタデータ) (2026-01-12T05:43:51Z) - Cascading multi-agent anomaly detection in surveillance systems via vision-language models and embedding-based classification [0.0]
この研究は、補完パラダイムをコヒーレントで解釈可能なアーキテクチャに統一するカスケーディングマルチエージェントフレームワークを導入している。
初期モジュールは再構成ゲートフィルタリングとオブジェクトレベルの評価を行い、高レベルの推論エージェントは、意味的に曖昧な事象を解釈するために選択的に呼び出される。
このフレームワークは、早期出力効率、適応型マルチエージェント推論、説明可能な異常属性を組み合わせることで、従来の検出パイプラインを超えて進歩し、スケーラブルなインテリジェントなビジュアル監視のための再現可能でエネルギー効率の良い基盤を確立する。
論文 参考訳(メタデータ) (2026-01-08T11:31:47Z) - Bridging the Reality Gap in Digital Twins with Context-Aware, Physics-Guided Deep Learning [3.0996501197166975]
デジタルツイン(DT)は強力な予測分析を可能にするが、シミュレーションと実際のシステムの相違 - 現実のギャップとして知られ、信頼性を損なう。
本稿では,新しいセンサデータを連続的に統合し,誤りを検知し,クエリ応答フレームワークを介してDTを再検討する,DTのためのReal Gap Analysis(RGA)モジュールを提案する。
提案手法は,コンテキスト推論の改善と物理的整合性維持のために,ドメイン・アドバイサル深層学習と低次シミュレータ誘導を融合する。
論文 参考訳(メタデータ) (2025-05-17T05:18:46Z) - WATCH: Adaptive Monitoring for AI Deployments via Weighted-Conformal Martingales [22.789611187514975]
非パラメトリックシーケンシャルテストのメソッド -- 特にコンフォーマルテストマーチンチャル(CTM)と任意の時間価推論 -- は、この監視タスクに有望なツールを提供する。
既存のアプローチは、限られた仮説クラスやアラーム基準の監視に限られています。」
論文 参考訳(メタデータ) (2025-05-07T17:53:47Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - SIOD: Single Instance Annotated Per Category Per Image for Object
Detection [67.64774488115299]
画像内の既存のカテゴリ毎に1つのインスタンスアノテーションのみを必要とする単一インスタンスアノテーションオブジェクト検出(SIOD)を提案する。
WSOD(Inter-task)やSSOD(Inter-image)の相違点からイメージ内の相違点に分解されたSIODは、ラベルなしインスタンスの残りをマイニングする上で、より信頼性が高く豊富な事前知識を提供する。
SIOD設定下では、類似性に基づく擬似ラベル生成モジュール(SPLG)と、Pixelレベルのグループコントラスト学習モジュール(PGCL)からなる、シンプルで効果的なフレームワークであるDual-Mining(DMiner)を提案する。
論文 参考訳(メタデータ) (2022-03-29T08:49:51Z) - DEAM: Dialogue Coherence Evaluation using AMR-based Semantic
Manipulations [46.942369532632604]
不整合データ生成のためのAMRに基づく意味操作に依存する対話評価指標を提案する。
実験の結果,DEAMは基準法と比較して,人間の判断と高い相関性が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-18T03:11:35Z) - Improving Limited Labeled Dialogue State Tracking with Self-Supervision [91.68515201803986]
既存の対話状態追跡(DST)モデルには多くのラベル付きデータが必要である。
本稿では,潜在的一貫性の維持と対話行動のモデル化という,自己指導型の2つの目的について検討する。
提案する自己教師型信号は,1%のラベル付きデータのみを使用する場合,関節ゴール精度を8.95%向上させることができる。
論文 参考訳(メタデータ) (2020-10-26T21:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。