論文の概要: VOILA: Value-of-Information Guided Fidelity Selection for Cost-Aware Multimodal Question Answering
- arxiv url: http://arxiv.org/abs/2602.03007v1
- Date: Tue, 03 Feb 2026 02:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.193001
- Title: VOILA: Value-of-Information Guided Fidelity Selection for Cost-Aware Multimodal Question Answering
- Title(参考訳): VOILA:コストを意識したマルチモーダル質問応答のための情報の価値ガイドによる忠実度選択
- Authors: Rahul Atul Bhope, K. R. Jayaram, Vinod Muthusamy, Ritesh Kumar, Vatche Isahagian, Nalini Venkatasubramanian,
- Abstract要約: 視覚質問応答(VQA)における価値Of情報駆動型適応忠実度選択のためのフレームワークVOILAを紹介する。
VOILAは一貫して50-60%のコスト削減を実現し、多様なクエリタイプやモデルアーキテクチャで90-95%の精度を維持している。
- 参考スコア(独自算出の注目度): 5.764021129006918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant costs from retrieving and processing high-fidelity visual inputs, most multimodal vision-language systems operate at fixed fidelity levels. We introduce VOILA, a framework for Value-Of-Information-driven adaptive fidelity selection in Visual Question Answering (VQA) that optimizes what information to retrieve before model execution. Given a query, VOILA uses a two-stage pipeline: a gradient-boosted regressor estimates correctness likelihood at each fidelity from question features alone, then an isotonic calibrator refines these probabilities for reliable decision-making. The system selects the minimum-cost fidelity maximizing expected utility given predicted accuracy and retrieval costs. We evaluate VOILA across three deployment scenarios using five datasets (VQA-v2, GQA, TextVQA, LoCoMo, FloodNet) and six Vision-Language Models (VLMs) with 7B-235B parameters. VOILA consistently achieves 50-60% cost reductions while retaining 90-95% of full-resolution accuracy across diverse query types and model architectures, demonstrating that pre-retrieval fidelity selection is vital to optimize multimodal inference under resource constraints.
- Abstract(参考訳): 高忠実度視覚入力の検索と処理の大幅なコストにもかかわらず、ほとんどのマルチモーダル視覚言語システムは固定忠実度レベルで動作している。
本稿では、VQA(Visual Question Answering)において、モデル実行前に検索する情報を最適化する、価値Of-Information-driven Adaptive Fidelity selectionのためのフレームワークVOILAを紹介する。
勾配ブーストされた回帰器は、疑問特徴のみから各フィデリティの正しさを推定し、アイソトニックキャリブレータはこれらの確率を信頼性の高い意思決定のために洗練する。
本システムは、予測精度と検索コストが与えられた最小コストのフィデリティ最大化ユーティリティを選択する。
5つのデータセット(VQA-v2,GQA,TextVQA,LoCoMo,FloodNet)と7B-235Bパラメータを持つ6つのビジョン言語モデル(VLM)を用いて,VOILAを3つのデプロイメントシナリオにわたって評価した。
VOILAは、さまざまなクエリタイプやモデルアーキテクチャにおいて、90-95%の完全精度を維持しながら、50-60%のコスト削減を一貫して達成し、リソース制約下でのマルチモーダル推論を最適化するためには、検索前の忠実度選択が不可欠であることを示す。
関連論文リスト
- Efficient Onboard Vision-Language Inference in UAV-Enabled Low-Altitude Economy Networks via LLM-Enhanced Optimization [61.55616421408666]
低高度経済ネットワーク(LAENets)は、航空監視、環境検知、セマンティックデータ収集など、様々な応用を可能にしている。
オンボードビジョン(VLM)は、リアルタイムな推論を提供するが、オンボードの動的ネットワーク条件は限られている。
動的LEENet条件下での通信効率を向上させるUAV対応LEENetシステムを提案する。
論文 参考訳(メタデータ) (2025-10-11T05:11:21Z) - Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL [70.1326027641056]
視覚言語モデル(VLM)は、様々なコンピュータビジョンタスクにおいて印象的な性能を達成している。
本稿では,キー画像領域に適応的な焦点付けとズームインを行うことができるChain-of-Focus(CoF)手法を提案する。
教師付き微調整と強化学習を含む2段階の訓練パイプラインを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:18:15Z) - EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。
提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。
視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-19T16:07:04Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - A Semantic-Aware Multiple Access Scheme for Distributed, Dynamic 6G-Based Applications [14.51946231794179]
本稿では,無線スペクトルへの多重アクセス問題に対する新しい定式化を提案する。
その目的は、$alpha$-fairnessメトリックを使用して、使い勝手のトレードオフを最適化することにある。
Semantic-Aware Multi-Agent Double and Dueling Deep Q-Learning (SAMA-D3QL) 手法を提案する。
論文 参考訳(メタデータ) (2024-01-12T00:32:38Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - IPA: Inference Pipeline Adaptation to Achieve High Accuracy and Cost-Efficiency [5.2258780240494085]
推論パイプライン適応システムは、ディープラーニングタスク毎のモデル変種を効率的に活用する。
IPAはバッチサイズ、レプリケーション、モデルの変種を動的に設定し、精度を最適化し、コストを最小化し、ユーザ定義の遅延レベル合意を満たす。
論文 参考訳(メタデータ) (2023-08-24T15:48:21Z) - Multi-Fidelity Multi-Objective Bayesian Optimization: An Output Space
Entropy Search Approach [44.25245545568633]
複数目的のブラックボックス最適化の新たな課題を多要素関数評価を用いて検討する。
いくつかの総合的および実世界のベンチマーク問題に対する実験により、MF-OSEMOは両者の近似により、最先端の単一忠実度アルゴリズムよりも大幅に改善されていることが示された。
論文 参考訳(メタデータ) (2020-11-02T06:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。