論文の概要: SIEVES: Selective Prediction Generalizes through Visual Evidence Scoring
- arxiv url: http://arxiv.org/abs/2604.25855v1
- Date: Tue, 28 Apr 2026 16:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.963358
- Title: SIEVES: Selective Prediction Generalizes through Visual Evidence Scoring
- Title(参考訳): SIEVES:視覚的エビデンス・スコアリングによる選択予測の一般化
- Authors: Hector G. Rodriguez, Marcus Rohrbach,
- Abstract要約: MLLM(Multimodal large language model)は、視覚言語タスクにおける絶え間ないパフォーマンスを実現する。
選択予測は,ユーザ定義のリスクレベルに順応しながら,システム回答の入力のシェアを向上することを目的としている。
信頼性の高い一般化を実現するためには,解答中に局所的な視覚的エビデンスを生成するための推論モデルと,解答者が提供する局所化の質を明示的に推定するセレクタを設計する必要がある。
- 参考スコア(独自算出の注目度): 9.116950360800246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) achieve ever-stronger performance on visual-language tasks. Even as traditional visual question answering benchmarks approach saturation, reliable deployment requires satisfying low error tolerances in real-world out-of-distribution (OOD) scenarios. Precisely, selective prediction aims to improve coverage, i.e. the share of inputs the system answers, while adhering to a user-defined risk level. This is typically achieved by assigning a confidence score to each answer and abstaining on those that fall below a certain threshold. To enable reliable generalization, we require reasoner models to produce localized visual evidence while answering, and design a selector that explicitly learns to estimate the quality of the localization provided by the reasoner. We show that SIEVES (Selective Prediction through Visual Evidence Scoring) improves coverage by up to three times on challenging OOD benchmarks (V* Bench, HR-Bench-8k, MME-RealWorld-Lite, VizWiz, and AdVQA), compared to non-grounding baselines. Beyond better generalization to OOD tasks, the design of the SIEVES selector enables transfer to proprietary reasoners without access to their weights or logits, such as o3 and Gemini-3-Pro, providing coverage boosts beyond those attributable to accuracy alone. We highlight that SIEVES generalizes across all five tested OOD datasets and reasoner models (Pixel-Reasoner, o3, and Gemini-3-Pro), without benchmark- or reasoner-specific training or adaptation.
- Abstract(参考訳): MLLM(Multimodal large language model)は、視覚言語タスクにおける絶え間ないパフォーマンスを実現する。
従来の視覚的質問応答ベンチマークが飽和に近づいたとしても、信頼性の高いデプロイメントでは、現実世界のアウト・オブ・ディストリビューション(OOD)シナリオで低いエラー耐性を満足する必要がある。
正確には、選択的な予測は、ユーザ定義のリスクレベルに固執しながら、システム回答のインプットのシェアを向上することを目的としている。
これは典型的には、信頼スコアを各回答に割り当て、一定の閾値未満の回答を控えることによって達成される。
信頼性の高い一般化を実現するためには,解答中に局所的な視覚的エビデンスを生成するための推論モデルと,解答者が提供する局所化の質を明示的に推定するセレクタを設計する必要がある。
SIEVES(Selective Prediction through Visual Evidence Scoring)は,OODベンチマーク(V* Bench, HR-Bench-8k, MME-RealWorld-Lite, VizWiz, AdVQA)において,非接地ベースラインと比較して,最大3倍のカバレッジ向上を実現している。
OODタスクのさらなる一般化に加えて、SIEVESセレクタの設計により、O3やGemini-3-Proのような重みやロジットにアクセスせずにプロプライエタリな推論子への転送が可能となり、精度のみに起因するもの以上のカバレッジ向上が実現された。
SIEVESはベンチマークや推論固有のトレーニングや適応なしに、テスト済みのOODデータセットと推論モデル(Pixel-Reasoner、o3、Gemini-3-Pro)のすべてにまたがって一般化されている点を強調します。
関連論文リスト
- Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs [80.03370593724422]
Out-of-Distribution (OOD) は未知のクラスからサンプルを識別する。
現在の手法では、否定的なテキストとIDラベルを比較するなど、OOD検出中にモード内距離を組み込むことが多い。
テキストおよび視覚的視点から一貫したモーダル距離拡張を体系的に利用するフレームワークであるInterNegを提案する。
論文 参考訳(メタデータ) (2026-03-03T05:44:47Z) - On Generalization in Agentic Tool Calling: CoreThink Agentic Reasoner and MAVEN Dataset [16.921428284844684]
エージェントツールコール環境間の一般化は、信頼できる推論システムを開発する上で重要な未解決課題である。
本稿では、構造化分解と適応ツールオーケストレーションのための軽量なシンボリック推論層を用いて、大規模言語モデルを強化するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T00:58:48Z) - A Benchmark and Evaluation for Real-World Out-of-Distribution Detection Using Vision-Language Models [31.885470008881267]
Out-of-Distribution(OOD)検出は、推論中にサンプルを検出して、デプロイされたモデルの安全性を保証するタスクである。
我々は3つの新しいOOD検出ベンチマークを導入し,手法特性のより深い理解と実環境の反映を可能にした。
実験の結果、最近のCLIPベースのOOD検出手法は、提案された3つのベンチマークで様々な程度に困難であることが判明した。
論文 参考訳(メタデータ) (2025-01-30T16:30:20Z) - LCA-on-the-Line: Benchmarking Out-of-Distribution Generalization with Class Taxonomies [22.100031612580356]
我々は,OODデータを必要とせず,内分布(ID)測定によるモデル外分布(OOD)性能の予測に挑戦する。
本稿では,ラベルと予測との階層的距離を予め定義されたクラス階層内で測定するLCA(Lowest Common Ancestor)フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-07-22T21:54:19Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。