論文の概要: Quantifying Conversational Reliability of Large Language Models under Multi-Turn Interaction
- arxiv url: http://arxiv.org/abs/2603.01423v1
- Date: Mon, 02 Mar 2026 03:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.672623
- Title: Quantifying Conversational Reliability of Large Language Models under Multi-Turn Interaction
- Title(参考訳): マルチターン相互作用による大規模言語モデルの会話信頼性の定量化
- Authors: Jiyoon Myung,
- Abstract要約: 大きな言語モデル(LLM)は、ユーザが拡張された混合トピックの会話を行う現実世界のアプリケーションに、ますます多くデプロイされている。
我々は,3つの代表課題を通じて,会話の信頼性を体系的に評価する。
我々は信頼性の大幅な低下、特により小さなモデルについて観察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in real-world applications where users engage in extended, mixed-topic conversations that depend on prior context. Yet, their reliability under realistic multi-turn interactions remains poorly understood. We conduct a systematic evaluation of conversational reliability through three representative tasks that reflect practical interaction challenges: (1) maintaining global constraints across topic shifts, (2) selecting the correct tool or agent amid interleaved intents, and (3) tracking structured entities under revisions and distractions. Each task pairs single-turn and multi-turn settings, allowing us to quantify reliability degradation under extended dialogue. Across both commercial and open-source models, we observe substantial declines in reliability, particularly for smaller models. Error analyses reveal recurring failure modes such as instruction drift, intent confusion, and contextual overwriting, which compromise dependable behavior in operational systems. Our findings highlight the need for stress-testing LLMs for conversational reliability and developing more robust evaluation methods for trustworthy deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ユーザが事前のコンテキストに依存する拡張された混合トピックの会話に従事している現実世界のアプリケーションに、ますます多くデプロイされている。
しかし、現実的なマルチターン相互作用下での信頼性はいまだによく理解されていない。
本研究では,(1)トピックシフトの国際的制約の維持,(2)インターリーブされた意図の下での適切なツールやエージェントの選択,(3)リビジョンや気晴らしによる構造化されたエンティティの追跡,の3つの課題を反映した,会話の信頼性の体系的な評価を行う。
各タスクはシングルターンとマルチターンの設定をペアリングし、拡張ダイアログの下で信頼性の低下を定量化する。
商用モデルとオープンソースモデルの両方において、信頼性の大幅な低下を観察する。
エラー解析により、命令のドリフト、意図の混乱、コンテキストオーバーライトといった繰り返し発生する障害モードが明らかとなり、運用システムにおける信頼性の高い動作が損なわれる。
本研究は,対話型信頼性のためのストレステスト LLM の必要性を強調し,信頼性の高いデプロイメントのためのより堅牢な評価手法を開発した。
関連論文リスト
- Confidence Estimation for LLMs in Multi-turn Interactions [48.081802290688394]
この研究は、マルチターン相互作用における信頼度推定に関する最初の体系的研究である。
そこで我々は,2つの主要なデシラタに基礎を置く形式的評価枠組みを構築した。
我々の研究は、より信頼性が高く信頼性の高い会話エージェントを開発するための基礎的な方法論を提供する。
論文 参考訳(メタデータ) (2026-01-05T14:58:04Z) - Assertion-Conditioned Compliance: A Provenance-Aware Vulnerability in Multi-Turn Tool-Calling Agents [0.4666493857924358]
マルチターンツールコール LLM は、現代のAIアシスタントにおいて重要な機能として現れている。
多くの安全上重要な産業では、マルチターンパイプラインの実装は依然として困難である。
マルチターンの会話レベルの堅牢性には、まだ可視性がない。
論文 参考訳(メタデータ) (2025-11-29T05:44:37Z) - Plug-and-Play Clarifier: A Zero-Shot Multimodal Framework for Egocentric Intent Disambiguation [60.63465682731118]
エゴセントリックなAIエージェントのパフォーマンスは、基本的にマルチモーダルな意図のあいまいさによって制限される。
ゼロショットでモジュラーなフレームワークであるPlug-and-Play Clarifierを導入し、問題を個別に解決可能なサブタスクに分解する。
我々のフレームワークは,小言語モデルの意図的明確化性能を約30%向上させ,より大きな言語モデルとの競争力を高める。
論文 参考訳(メタデータ) (2025-11-12T04:28:14Z) - Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - Multi-Turn Puzzles: Evaluating Interactive Reasoning and Strategic Dialogue in LLMs [21.192619293355502]
大きな言語モデル(LLM)は、明確で完全なステートメントで問題を解決するのに優れています。
このベンチマークは、複雑でインタラクティブなシナリオを扱う上で、現在のLLMの長所と短所に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-08-13T19:14:45Z) - Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.50808215134678]
この研究では、23の最先端のビデオLLMを評価する最初の総合的なベンチマークであるTrust-videoLLMを紹介した。
その結果、動的シーン理解、クロスモーダルレジリエンス、現実世界のリスク軽減において、大きな制限が示された。
論文 参考訳(メタデータ) (2025-06-14T04:04:54Z) - Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models [15.158475816860427]
不確実性は、現代のAIシステムの信頼性と信頼性を評価するために不可欠である。
モデルが自然言語を通して信頼を表現する言語化された不確実性は、軽量で解釈可能なソリューションとして現れています。
しかし、視覚言語モデル(VLM)におけるその効果は未だ十分に研究されていない。
論文 参考訳(メタデータ) (2025-05-26T17:16:36Z) - MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。