論文の概要: MMBoundary: Advancing MLLM Knowledge Boundary Awareness through Reasoning Step Confidence Calibration
- arxiv url: http://arxiv.org/abs/2505.23224v2
- Date: Thu, 05 Jun 2025 16:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 14:14:43.123795
- Title: MMBoundary: Advancing MLLM Knowledge Boundary Awareness through Reasoning Step Confidence Calibration
- Title(参考訳): MMBoundary:ステップ信頼度校正によるMLLM知識境界認識の向上
- Authors: Zhitao He, Sandeep Polisetty, Zhiyuan Fan, Yuchen Huang, Shujin Wu, Yi R. Fung,
- Abstract要約: 本稿では,MLLMの知識境界認識を促進する新しいフレームワークMMBoundaryを提案する。
教師付き微調整に加えて,モデル知識の整合性を高めるために,複数の報酬関数を持つ強化学習ステージを導入する。
経験的な結果から、MMBoundaryはさまざまなドメインデータセットやメトリクスで既存のメソッドよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 2.1824579248418017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, multimodal large language models (MLLMs) have made significant progress but continue to face inherent challenges in multimodal reasoning, which requires multi-level (e.g., perception, reasoning) and multi-granular (e.g., multi-step reasoning chain) advanced inferencing. Prior work on estimating model confidence tends to focus on the overall response for training and calibration, but fails to assess confidence in each reasoning step, leading to undesirable hallucination snowballing. In this work, we present MMBoundary, a novel framework that advances the knowledge boundary awareness of MLLMs through reasoning step confidence calibration. To achieve this, we propose to incorporate complementary textual and cross-modal self-rewarding signals to estimate confidence at each step of the MLLM reasoning process. In addition to supervised fine-tuning MLLM on this set of self-rewarded confidence estimation signal for initial confidence expression warm-up, we introduce a reinforcement learning stage with multiple reward functions for further aligning model knowledge and calibrating confidence at each reasoning step, enhancing reasoning chain self-correction. Empirical results show that MMBoundary significantly outperforms existing methods across diverse domain datasets and metrics, achieving an average of 7.5% reduction in multimodal confidence calibration errors and up to 8.3% improvement in task performance.
- Abstract(参考訳): 近年,マルチモーダル・大規模言語モデル (MLLM) は大きな進歩を遂げているが,マルチモーダル推論において,マルチレベル(知覚,推論など)とマルチグラニュラー(多段階推論チェーンなど)の高度な推論を必要とする固有の課題に直面し続けている。
モデルの信頼度を推定する以前の研究は、トレーニングとキャリブレーションに対する全体的な反応に焦点を当てる傾向にあるが、各推論ステップにおける信頼度を評価することに失敗し、好ましくない幻覚の雪だるまに繋がる。
本研究では,MLLMの知識境界認識を段階的信頼度キャリブレーションにより向上させる新しいフレームワークMMBoundaryを提案する。
そこで本研究では,MLLM推論プロセスの各ステップにおける信頼度を推定するために,補完的なテキストとクロスモーダルな自己回帰信号を統合することを提案する。
初期信頼表現ウォームアップのためのこの一連の自己回帰信頼度推定信号の教師付き微調整MLLMに加えて、モデル知識をさらに整合させ、各推論ステップにおける信頼度を調整し、推論連鎖の自己補正を強化するための強化学習段階を導入する。
実証的な結果から、MMBoundaryは様々なドメインデータセットやメトリクスで既存の手法を著しく上回り、マルチモーダルな信頼性校正エラーを平均7.5%削減し、タスクパフォーマンスを最大8.3%改善した。
関連論文リスト
- Calibrating Uncertainty Quantification of Multi-Modal LLMs using Grounding [48.92310906093414]
マルチモーダル大言語モデル(LLM)に適した不確実性定量化(UQ)の校正手法を提案する。
マルチモーダルモデルのキャリブレーションを改善するために,自己整合性に加えてクロスモーダル整合性を活用する。
医療質問応答(Slake)や視覚質問応答(VQAv2)といった複数のマルチモーダルタスクに対して,LLaVA-MedやLLaVAといったマルチモーダルモデルを考慮したアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-30T19:19:21Z) - SAUP: Situation Awareness Uncertainty Propagation on LLM Agent [52.444674213316574]
大規模言語モデル(LLM)は多段階エージェントシステムに統合され、様々なアプリケーションにまたがる複雑な意思決定プロセスを可能にする。
既存の不確実性推定手法は主に最終段階の出力に重点を置いており、これは多段階決定プロセスにおける累積的不確実性やエージェントとその環境間の動的相互作用を考慮できない。
LLMエージェントの推論プロセスの各ステップを通じて不確実性を伝播する新しいフレームワークであるSAUPを提案する。
論文 参考訳(メタデータ) (2024-12-02T01:31:13Z) - Confidence Estimation for LLM-Based Dialogue State Tracking [9.305763502526833]
大規模言語モデル(LLM)に基づく会話型AIシステムでは,モデルの出力に対する信頼度の推定が重要である。
オープン・アンド・クローズド・ウェイト LLM に提案するアプローチを含む,手法の徹底的な探索を行う。
以上の結果から, 微調整式オープンウェイトLLMはAUC性能が向上し, 信頼性スコアの校正精度が向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-15T06:44:26Z) - Confidence Calibration and Rationalization for LLMs via Multi-Agent Deliberation [18.815226646364476]
大規模言語モデル(LLM)の既存のキャリブレーション手法は、「集団知恵」を最大限に活用することなく、個人の信頼度を推定または引き出すことに重点を置いている。
我々は,複数ツール強化LDMエージェントの協調的・表現的能力を活用した,ポストホックトレーニングフリーキャリブレーション戦略であるCollaborativeを提案する。
論文 参考訳(メタデータ) (2024-04-14T02:40:43Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - A Survey of Confidence Estimation and Calibration in Large Language Models [86.692994151323]
大規模言語モデル(LLM)は、様々な領域において幅広いタスクにまたがる顕著な機能を示している。
印象的なパフォーマンスにもかかわらず、彼らは世代内の事実上の誤りのために信頼できない。
信頼度を評価し、異なるタスクで調整することで、リスクを軽減し、LLMがより良い世代を創出できるようになります。
論文 参考訳(メタデータ) (2023-11-14T16:43:29Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z) - Calibrating Multimodal Learning [94.65232214643436]
本稿では,従来の手法の予測信頼性を校正するために,新たな正規化手法であるCML(Callibrating Multimodal Learning)正則化を提案する。
この技術は、既存のモデルによって柔軟に装備され、信頼性校正、分類精度、モデルロバスト性の観点から性能を向上させることができる。
論文 参考訳(メタデータ) (2023-06-02T04:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。