論文の概要: Generative Score Inference for Multimodal Data
- arxiv url: http://arxiv.org/abs/2603.26349v1
- Date: Fri, 27 Mar 2026 12:24:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.495394
- Title: Generative Score Inference for Multimodal Data
- Title(参考訳): マルチモーダルデータの生成スコア推論
- Authors: Xinyu Tian, Xiaotong Shen,
- Abstract要約: 本稿では,統計的に有効な情報的予測・信頼セットの構築が可能なフレキシブル推論フレームワークであるジェネレーティブスコア推論を紹介する。
我々は,大言語モデルにおける幻覚検出と画像キャプションにおける不確実性推定という2つの代表的なシナリオを通じて,GSIの能力を実証的に検証した。
本手法は,画像キャプションにおける幻覚検出における最先端性能と頑健な予測不確実性を実現し,その性能は基礎となる生成モデルの品質に肯定的な影響を受けている。
- 参考スコア(独自算出の注目度): 11.857867207010981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate uncertainty quantification is crucial for making reliable decisions in various supervised learning scenarios, particularly when dealing with complex, multimodal data such as images and text. Current approaches often face notable limitations, including rigid assumptions and limited generalizability, constraining their effectiveness across diverse supervised learning tasks. To overcome these limitations, we introduce Generative Score Inference (GSI), a flexible inference framework capable of constructing statistically valid and informative prediction and confidence sets across a wide range of multimodal learning problems. GSI utilizes synthetic samples generated by deep generative models to approximate conditional score distributions, facilitating precise uncertainty quantification without imposing restrictive assumptions about the data or tasks. We empirically validate GSI's capabilities through two representative scenarios: hallucination detection in large language models and uncertainty estimation in image captioning. Our method achieves state-of-the-art performance in hallucination detection and robust predictive uncertainty in image captioning, and its performance is positively influenced by the quality of the underlying generative model. These findings underscore the potential of GSI as a versatile inference framework, significantly enhancing uncertainty quantification and trustworthiness in multimodal learning.
- Abstract(参考訳): 正確な不確実性定量化は、教師付き学習シナリオ、特に画像やテキストなどの複雑なマルチモーダルデータを扱う場合において、信頼性の高い決定を行う上で重要である。
現在のアプローチは、厳密な仮定や限定的な一般化可能性など、様々な教師付き学習タスクで有効性を制限している、顕著な制限に直面していることが多い。
これらの制約を克服するために,多モード学習問題にまたがって統計的に妥当かつ情報的予測・信頼セットを構築することのできるフレキシブルな推論フレームワークであるジェネレーティブスコア推論(GSI)を導入する。
GSIは、深層生成モデルによって生成された合成サンプルを使用して、条件付きスコア分布を近似し、データやタスクに関する制限的な仮定を課すことなく、正確な不確実性定量化を容易にする。
我々は,大言語モデルにおける幻覚検出と画像キャプションにおける不確実性推定という2つの代表的なシナリオを通じて,GSIの能力を実証的に検証した。
本手法は,画像キャプションにおける幻覚検出における最先端性能と頑健な予測不確実性を実現し,その性能は基礎となる生成モデルの品質に肯定的な影響を受けている。
これらの結果は,多モーダル学習における不確実性定量化と信頼性を著しく向上させ,汎用推論フレームワークとしてのGSIの可能性を強調した。
関連論文リスト
- CAMD: Coverage-Aware Multimodal Decoding for Efficient Reasoning of Multimodal Large Language Models [48.33850939857255]
我々は、サンプリングカバレッジ、インスタンスの難易度、残留リスクをリンクする理論的枠組みを開発する。
解析の結果,マルチモーダル推論は重み付き難易度分布を示すことがわかった。
推定不確実性に応じて動的に割り当てる適応型推論機構であるCoverage-Aware Multimodal Decoding (CAMD)を提案する。
論文 参考訳(メタデータ) (2026-03-16T02:31:03Z) - Heterogeneous Uncertainty-Guided Composed Image Retrieval with Fine-Grained Probabilistic Learning [49.28548464288051]
Composed Image Retrieval (CIR)は、参照画像と修正テキストを組み合わせることで、画像検索を可能にする。
CIR三重項の内在ノイズは内在的不確実性を引き起こし、モデルの堅牢性を脅かす。
本稿では,これらの制約を克服するための不確実性誘導(HUG)パラダイムを提案する。
論文 参考訳(メタデータ) (2026-01-16T16:05:49Z) - LLM-Centric RAG with Multi-Granular Indexing and Confidence Constraints [5.2604064919135896]
本稿では,複雑な知識環境下での検索強化生成において,不十分なカバレッジ,不安定な結果,信頼性の制限といった問題に対処する。
複数粒度メモリインデックスと不確実性推定を統合した信頼度制御法を提案する。
提案手法は,QA精度,検索リコール,ランキング品質,事実整合性において,既存モデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-10-30T23:48:37Z) - Enhancing Uncertainty Estimation and Interpretability via Bayesian Non-negative Decision Layer [55.66973223528494]
本研究では, ディープニューラルネットワークを条件付きベイズ非負因子分析として再構成したベイズ非負決定層(BNDL)を開発した。
BNDLは複雑な依存関係をモデル化し、堅牢な不確実性推定を提供する。
また,BNDLが効果的に不整合学習を達成できるという理論的保証も提供する。
論文 参考訳(メタデータ) (2025-05-28T10:23:34Z) - A Review of Bayesian Uncertainty Quantification in Deep Probabilistic Image Segmentation [0.0]
本稿では,不確実性モデリングにおける基礎概念の統合とコンテキスト化について述べる。
空間集合における強い仮定や標準ベンチマークの欠如といった課題を特定する。
深層学習における不確実性認識のセグメンテーションを進めるための方向性を提案する。
論文 参考訳(メタデータ) (2024-11-25T13:26:09Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Modeling Uncertain Feature Representation for Domain Generalization [49.129544670700525]
提案手法は,複数の視覚タスクにおけるネットワーク一般化能力を常に改善することを示す。
我々の手法は単純だが有効であり、トレーニング可能なパラメータや損失制約を伴わずにネットワークに容易に統合できる。
論文 参考訳(メタデータ) (2023-01-16T14:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。