論文の概要: Firm or Fickle? Evaluating Large Language Models Consistency in Sequential Interactions
- arxiv url: http://arxiv.org/abs/2503.22353v3
- Date: Fri, 30 May 2025 13:25:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 12:43:13.049545
- Title: Firm or Fickle? Evaluating Large Language Models Consistency in Sequential Interactions
- Title(参考訳): 企業かフィックルか? シークエンシャルインタラクションにおける大規模言語モデルの整合性の評価
- Authors: Yubo Li, Yidi Miao, Xueying Ding, Ramayya Krishnan, Rema Padman,
- Abstract要約: 大きな言語モデル(LLM)は、様々なタスクにまたがって顕著な機能を示している。
ハイテイクなドメインへのデプロイメントには、複数ラウンドにわたるユーザインタラクションの一貫性と一貫性を備えた動作が必要です。
本稿では,LLM応答整合性の評価と改善のための総合的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.069858557211132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown remarkable capabilities across various tasks, but their deployment in high-stake domains requires consistent and coherent behavior across multiple rounds of user interaction. This paper introduces a comprehensive framework for evaluating and improving LLM response consistency, making three key contributions. Code and data are available at: https://github.com/yubol-bobo/MT-Consistency. First, we introduce Position-Weighted Consistency (PWC), a metric designed to capture both the importance of early-stage stability and recovery patterns in multi-turn interactions. Second, we present MT-Consistency, a carefully curated benchmark dataset spanning diverse domains and difficulty levels, specifically designed to evaluate LLM consistency under various challenging follow-up scenarios. Third, we introduce Confidence-Aware Response Generation (CARG), a framework that significantly improves response stability by explicitly integrating internal model confidence scores during the generation process. Experimental results demonstrate that CARG significantly improves response stability without sacrificing accuracy, offering a practical path toward more dependable LLM behavior in critical, real-world deployments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにまたがって顕著な機能を示しているが、高い領域への展開には、複数のユーザーインタラクションラウンドで一貫した、一貫性のある振る舞いが必要である。
本稿では,LLM応答整合性の評価と改善のための総合的なフレームワークを紹介し,その3つの重要な貢献について述べる。
コードとデータは、https://github.com/yubol-bobo/MT-Consistency.comで入手できる。
まず,多ターン相互作用における初期安定性と回復パターンの重要性を両立する指標として,位置重み付き一貫性(PWC)を導入する。
第二にMT-Consistencyは、様々なドメインと難易度にまたがる注意深く計算されたベンチマークデータセットであり、特に、様々な挑戦的なフォローアップシナリオの下でLLMの一貫性を評価するために設計されている。
第3に、生成プロセス中に内部モデル信頼性スコアを明示的に統合することにより、応答安定性を著しく向上するフレームワークである信頼性対応応答生成(CARG)を導入する。
実験により、CARGは精度を犠牲にすることなく応答安定性を著しく改善し、クリティカルで現実的な展開においてより信頼性の高いLCM動作への実践的な経路を提供することが示された。
関連論文リスト
- A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - Collective Reasoning Among LLMs A Framework for Answer Validation Without Ground Truth [0.0]
本研究では,モデル間のコンセンサスによって応答信頼性が向上し,生成した質問の質を評価するためのプロキシとして機能することを示す。
本稿では、GPT-4-0125-preview、Meta-LLaMA-3-70B-Instruct、Claude-3-Opus、Gemini-1.5-Flashといった複数の大規模言語モデルを用いて、複雑なPhDレベルの確率問題の生成と応答を行う協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-28T06:20:52Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。
しかし、ベンチマークパフォーマンスと実世界のアプリケーションの間には大きな違いがある。
G-Pass@kはモデルの性能を連続的に評価する新しい評価指標である。
本稿では,挑戦的,現代数学的な問題からなる動的ベンチマークであるLiveMathBenchを紹介する。
論文 参考訳(メタデータ) (2024-12-17T18:12:47Z) - On Adversarial Robustness and Out-of-Distribution Robustness of Large Language Models [0.16874375111244325]
大規模言語モデル(LLM)における対向ロバストネスとOODロバストネスの相関について検討する。
以上の結果より, 対向ロバスト性とOODロバスト性との間にはニュアンスな相互作用がみられ, 移動性に限界があることが示唆された。
これらの相互作用を、より大きなモデルと様々なアーキテクチャにわたって評価するためには、さらなる研究が必要である。
論文 参考訳(メタデータ) (2024-12-13T20:04:25Z) - Evaluating and Advancing Multimodal Large Language Models in Ability Lens [30.083110119139793]
textbfAbilityLensは、6つの重要な知覚能力にまたがるMLLMを評価するために設計された統一ベンチマークである。
現在のモデルの長所と短所を特定し、安定性のパターンを強調し、オープンソースモデルとクローズドソースモデルの顕著なパフォーマンスギャップを明らかにします。
また、早期訓練段階から最高の能力チェックポイントを組み合わせ、能力衝突による性能低下を効果的に軽減する、簡易な能力特異的モデルマージ手法を設計する。
論文 参考訳(メタデータ) (2024-11-22T04:41:20Z) - Reward-Robust RLHF in LLMs [25.31456438114974]
大規模言語モデル(LLM)は、より高度なインテリジェンスへと進化を続けている。
報酬モデルに基づく(RMに基づく)アライメント手法への依存は、大きな課題をもたらす。
本稿では,これらの課題に対処することを目的とした報酬損耗型RLHFフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-18T02:35:41Z) - MARS: Benchmarking the Metaphysical Reasoning Abilities of Language Models with a Multi-task Evaluation Dataset [50.36095192314595]
大きな言語モデル(LLM)は、一般化可能な推論能力を持つ意識的なエージェントとして機能する。
この能力は、イベントにおける無限の可能な変更をモデル化する複雑さのために、まだ探索されていない。
我々は,各ステップに対応する3つのタスクからなる最初のベンチマークMARSを紹介する。
論文 参考訳(メタデータ) (2024-06-04T08:35:04Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Two Failures of Self-Consistency in the Multi-Step Reasoning of LLMs [78.31625291513589]
自己整合性は、解が複数のサブステップに対する解からなるタスクにおいて、有効な多段階推論の重要な基準であると主張する。
仮説的整合性と構成的整合性という,多段階推論において特に重要である2種類の自己整合性を提案する。
GPT-3/4モデルの複数変種は,多種多様なタスクにおける両タイプの整合性に不整合性を示すことを示した。
論文 参考訳(メタデータ) (2023-05-23T17:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。