論文の概要: Do LVLMs Know What They Know? A Systematic Study of Knowledge Boundary Perception in LVLMs
- arxiv url: http://arxiv.org/abs/2508.19111v1
- Date: Tue, 26 Aug 2025 15:14:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.897494
- Title: Do LVLMs Know What They Know? A Systematic Study of Knowledge Boundary Perception in LVLMs
- Title(参考訳): LVLMは自分が知っていることを知っているか? : LVLMにおける知識境界知覚の体系的研究
- Authors: Zhikai Ding, Shiyu Ni, Keping Bi,
- Abstract要約: 大規模視覚言語モデル(LVLM)は強い視覚的質問応答能力を示すが幻覚を呈する。
本稿では,LVLMの知識境界に対する認識を3種類の信頼信号を用いて検討する。
- 参考スコア(独自算出の注目度): 9.19183567561999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (LVLMs) demonstrate strong visual question answering (VQA) capabilities but are shown to hallucinate. A reliable model should perceive its knowledge boundaries-knowing what it knows and what it does not. This paper investigates LVLMs' perception of their knowledge boundaries by evaluating three types of confidence signals: probabilistic confidence, answer consistency-based confidence, and verbalized confidence. Experiments on three LVLMs across three VQA datasets show that, although LVLMs possess a reasonable perception level, there is substantial room for improvement. Among the three confidences, probabilistic and consistency-based signals are more reliable indicators, while verbalized confidence often leads to overconfidence. To enhance LVLMs' perception, we adapt several established confidence calibration methods from Large Language Models (LLMs) and propose three effective methods. Additionally, we compare LVLMs with their LLM counterparts, finding that jointly processing visual and textual inputs decreases question-answering performance but reduces confidence, resulting in an improved perception level compared to LLMs.
- Abstract(参考訳): 大きな視覚言語モデル(LVLM)は、強い視覚的質問応答(VQA)能力を示すが、幻覚を示す。
信頼できるモデルは、その知識のバウンダリを認識すべきである。
本稿では,LVLMの知識境界に対する認識について,確率的信頼,回答一貫性に基づく信頼,言語的信頼という3種類の信頼信号を評価することによって検討する。
3つのVQAデータセットにわたる3つのLVLMの実験では、LVLMは合理的な認識レベルを持っているものの、改善の余地がかなりあることが示されている。
3つの信頼のうち、確率的信号と一貫性に基づく信号はより信頼性の高い指標である。
LVLMの認識を高めるために,Large Language Models (LLMs) からいくつかの確立された信頼度校正手法を適用し,3つの有効な手法を提案する。
さらに,LVLMとLLMを比較し,視覚的入力とテキスト入力を共同処理することで質問応答性能は低下するが,信頼性は低下し,LLMと比較して知覚レベルが向上することがわかった。
関連論文リスト
- Towards Fully Exploiting LLM Internal States to Enhance Knowledge Boundary Perception [58.62352010928591]
大きな言語モデル(LLM)は様々なタスクにまたがって優れたパフォーマンスを示すが、しばしば知識境界を正確に測定するのに苦労する。
本稿では,LLMの内部状態を有効利用して,効率性やリスクの観点から知識境界に対する認識を高める方法について検討する。
論文 参考訳(メタデータ) (2025-02-17T11:11:09Z) - Learning to Route LLMs with Confidence Tokens [43.63392143501435]
大規模言語モデル(LLM)は、いくつかのタスクにおいて印象的なパフォーマンスを示し、現実のアプリケーションにますますデプロイされている。
高精細度設定では、LCMの出力がいつ信頼できないかを知ることが不可欠となる。
本研究では,LLMが回答の信頼度を確実に示すことができる範囲と,この信頼度の概念が下流の精度向上にどのように変換できるかを考察する。
論文 参考訳(メタデータ) (2024-10-17T07:28:18Z) - Enhancing Confidence Expression in Large Language Models Through Learning from Past Experience [41.06726400259579]
大規模言語モデル(LLM)は、様々な下流タスクで顕著なパフォーマンスを示している。
信頼表現能力を高めるために,過去の経験から学習する方法(LePe)を提案する。
論文 参考訳(メタデータ) (2024-04-16T06:47:49Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - LEMMA: Towards LVLM-Enhanced Multimodal Misinformation Detection with External Knowledge Augmentation [58.524237916836164]
外部知識を付加したLVLM強化マルチモーダル誤報検出システム LEMMAを提案する。
提案手法は,Twitter と Fakeddit のデータセットにおいて,上位ベースライン LVLM の精度を 7% と 13% に向上させる。
論文 参考訳(メタデータ) (2024-02-19T08:32:27Z) - What Large Language Models Know and What People Think They Know [13.939511057660013]
大規模言語モデル(LLM)は意思決定プロセスに統合されつつある。
人間の信頼を得るためには、LSMは正確に評価し、正しい予測の可能性を伝達できるように、適切に校正されなければならない。
ここでは, LLM生成回答における人間の信頼度とモデルの実際の信頼度との差を示すキャリブレーションギャップと, 人間とモデルが正解と誤解をいかによく区別できるかを反映した識別ギャップについて検討する。
論文 参考訳(メタデータ) (2024-01-24T22:21:04Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。