Fugu-MT 論文翻訳(概要): Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

論文の概要: Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

arxiv url: http://arxiv.org/abs/2603.03111v1
Date: Tue, 03 Mar 2026 15:44:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-04 21:38:10.867212
Title: Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems
Title（参考訳）: マルチターンLDMシステムにおけるモデルスイッチングの性能ドリフトの評価
Authors: Raad Khraishi, Iman Zafar, Katie Myles, Greig A Cowan,
Abstract要約: マルチターンLLMシステムは、アップグレード、クロスプロジェクタルーティング、フォールバックにより、通常、モデルの中間動作を切り替える。本稿では,初期ターンのプレフィックスモデルと最終ターンの接尾辞モデルを実行することで,その効果を測定するスイッチ行列ベンチマークを提案する。シングルターンのハンドオフでさえ、一般的で統計的に有意な方向効果をもたらす。
参考スコア（独自算出の注目度）: 0.5833117322405447
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deployed multi-turn LLM systems routinely switch models mid-interaction due to upgrades, cross-provider routing, and fallbacks. Such handoffs create a context mismatch: the model generating later turns must condition on a dialogue prefix authored by a different model, potentially inducing silent performance drift. We introduce a switch-matrix benchmark that measures this effect by running a prefix model for early turns and a suffix model for the final turn, and comparing against the no-switch baseline using paired episode-level bootstrap confidence intervals. Across CoQA conversational QA and Multi-IF benchmarks, even a single-turn handoff yields prevalent and statistically significant, directional effects and may swing outcomes by -8 to +13 percentage points in Multi-IF strict success rate and +/- 4 absolute F1 on CoQA, comparable to the no-switch gap between common model tiers (e.g., GPT-5-nano vs GPT-5-mini). We further find systematic compatibility patterns: some suffix models degrade under nearly any non-self dialogue history, while others improve under nearly any foreign prefix. To enable compressed handoff risk monitoring, we decompose switch-induced drift into per-model prefix influence and suffix susceptibility terms, accounting for ~70% of variance across benchmarks. These results position handoff robustness as an operational reliability dimension that single-model benchmarks miss, motivating explicit monitoring and handoff-aware mitigation in multi-turn systems.
Abstract（参考訳）: マルチターンLLMシステムは、アップグレード、クロスプロジェクタルーティング、フォールバックにより、通常、モデルの中間動作を切り替える。このようなハンドオフは、コンテキストミスマッチを生成する。後続のターンを生成するモデルは、異なるモデルによって書かれたダイアログプレフィックスに条件を付さなければならないため、サイレントパフォーマンスドリフトを誘発する可能性がある。本稿では,この効果を,初期ターンのプレフィックスモデルと最終ターンの接尾辞モデルを実行し,ペア化されたエピソードレベルのブートストラップ信頼区間を用いたノ・スウィッチベースラインと比較することにより評価するスイッチ行列ベンチマークを提案する。 CoQA の会話型 QA と Multi-IF のベンチマークでは、単一ターンのハンドオフでさえ、有意かつ統計的に有意な方向効果を示し、Multi-IF の厳密な成功率で 8 から +13 ポイント、CoQA 上の +/4 絶対 F1 を揺るがすことができる(例: GPT-5-nano vs GPT-5-mini)。いくつかの接尾辞モデルは、ほとんどすべての非自己対話履歴で劣化し、他のものは、ほとんどすべての外国の接頭辞で改善される。圧縮ハンドオフリスクモニタリングを実現するため,スイッチによるドリフトをモデルごとのプレフィックスの影響とサフィックスのサセプティビリティの項に分解し,ベンチマーク間でのばらつきの約70%を考慮に入れた。これらの結果は、単一モデルベンチマークが見逃す運用信頼性の次元としてハンドオフロバストネスを位置づけ、マルチターンシステムにおける明示的な監視とハンドオフ対応の緩和を動機付けている。

関連論文リスト

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models [17.848889547838173]
MUSE (Multimodal Unified Safety Evaluation) は、自動クロスモーダルペイロード生成を統合するオープンソースの実行中心プラットフォームである。ハードアタック成功率(コンプライアンスのみ)とソフトASR(部分コンプライアンスを含む)を区別するデュアルメトリックフレームワーク実験により、マルチターン戦略は、ほぼ完全な単一ターン拒否を持つモデルに対して最大90-100%のASRを達成することができることが示された。
論文参考訳（メタデータ） (2026-03-03T00:10:23Z)
ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。 ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文参考訳（メタデータ） (2026-02-06T23:27:17Z)
ORCH: many analyses, one merge-a deterministic multi-agent orchestrator for discrete-choice reasoning with EMA-guided routing [0.6445605125467574]
ORCHは異種言語モデルを編成する離散選択推論のためのフレームワークである。タスクの分解と回答の集約に固定されたルールを使用し、パイプラインを予測可能、再現可能、トレーニング不要にする。 MMLU、MMLU-Pro、GSM8Kの実験では、ORCHは単一モデルベースラインと多数投票アンサンブルを一貫して上回っている。
論文参考訳（メタデータ） (2026-02-02T08:27:58Z)
CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。 CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文参考訳（メタデータ） (2025-12-22T16:34:21Z)
Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling [90.87033586963828]
マルチモーダル大言語モデル(MLLM)のステップ・バイ・ステップ推論を洗練させる手段としては,アウトカム・リワード強化学習(RL)が一般的であり,ますます重要になっている。この問題を修正するために,自己整合サンプリング(SCS)を提案する。 Qwen2.5-VL-7B-インストラクトに基づいて、SCSは、無視できる余分な計算を伴う6つのマルチモーダルベンチマークにおいて、最大7.7ポイントの精度を向上する。
論文参考訳（メタデータ） (2025-11-13T18:59:57Z)
Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文参考訳（メタデータ） (2025-10-09T04:48:49Z)
WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。 WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文参考訳（メタデータ） (2025-07-23T16:02:06Z)
SpecRouter: Adaptive Routing for Multi-Level Speculative Decoding in Large Language Models [21.933379266533098]
大規模言語モデル(LLM)は、推論品質と計算コストの間に重要なトレードオフをもたらす。既存のサービス戦略では、固定されたモデルスケールや静的な2段階の投機的デコードを用いることが多い。本稿では,LLM推論を適応的ルーティング問題として再定義する新しいフレームワークであるsystemnameを紹介する。
論文参考訳（メタデータ） (2025-05-12T15:46:28Z)
MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。 11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文参考訳（メタデータ） (2024-01-30T04:50:28Z)
AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。 3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文参考訳（メタデータ） (2020-01-15T18:32:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。