論文の概要: VQ-VA World: Towards High-Quality Visual Question-Visual Answering
- arxiv url: http://arxiv.org/abs/2511.20573v1
- Date: Tue, 25 Nov 2025 18:06:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.599629
- Title: VQ-VA World: Towards High-Quality Visual Question-Visual Answering
- Title(参考訳): VQ-VA World: 高品質なビジュアル質問-ビジュアル回答を目指して
- Authors: Chenhui Gou, Zilong Chen, Zeyu Wang, Feng Li, Deyao Zhu, Zicheng Duan, Kunchang Li, Chaorui Deng, Hongyi Yuan, Haoqi Fan, Cihang Xie, Jianfei Cai, Hamid Rezatofighi,
- Abstract要約: 本稿では,VQ-VA(Visual Question-Visual Answering: VQ-VA)について検討する。
VQ-VA Worldは大規模でターゲットとするデータ構築のためのエージェントパイプラインを中心に構築されたデータ中心のフレームワークである。
我々は、世界知識、設計知識、推論の側面に沿ってVQ-VAを体系的に評価するベンチマークであるIntelligentBenchをリリースした。
- 参考スコア(独自算出の注目度): 67.9494853574149
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper studies Visual Question-Visual Answering (VQ-VA): generating an image, rather than text, in response to a visual question -- an ability that has recently emerged in proprietary systems such as NanoBanana and GPT-Image. To also bring this capability to open-source models, we introduce VQ-VA World, a data-centric framework built around an agentic pipeline for large-scale, targeted data construction. Leveraging web-scale deployment, this pipeline crawls a massive amount of ~1.8M high-quality, interleaved image-text samples for model training. For evaluation, we further release IntelligentBench, a human-curated benchmark that systematically assesses VQ-VA along the aspects of world knowledge, design knowledge, and reasoning. Training with VQ-VA World data yields strong empirical gains: it helps LightFusion attain 53.06 on IntelligentBench, substantially surpassing the best prior open-source baselines (i.e., 7.78 from vanilla LightFusion; 1.94 from UniWorld-V1), and significantly narrowing the gap toward leading proprietary systems (e.g., 81.67 from NanoBanana; 82.64 from GPT-Image). By releasing the full suite of model weights, datasets, and pipelines, we hope to stimulate future research on VQ-VA.
- Abstract(参考訳): 本稿では,NanoBananaやGPT-Imageといったプロプライエタリなシステムに最近登場した,視覚的質問に対する応答として,テキストではなく画像を生成する,視覚的質問応答(VQ-VA)について検討する。
オープンソースモデルにもこの機能を導入すべく、大規模でターゲットとするデータ構築のためのエージェントパイプラインを中心に構築されたデータ中心のフレームワークであるVQ-VA Worldを紹介した。
Webスケールのデプロイメントを活用することで、このパイプラインは、モデルトレーニングのために、大量の-1.8Mの高品質なインターリーブイメージテキストサンプルをクロールする。
評価のために、世界知識、設計知識、推論の側面に沿ってVQ-VAを体系的に評価する人為的なベンチマークであるIntelligentBenchをリリースする。
VQ-VA Worldのトレーニングは、IntelligentBench上でLightFusionが53.06に達するのを手助けし(バニラLightFusionから7.78、UniWorld-V1から1.94)、主要なプロプライエタリシステムへのギャップを大幅に狭める(NanoBananaから81.67、GPT-Imageから82.64)。
モデルウェイト、データセット、パイプラインの全スイートをリリースすることによって、VQ-VAに関する将来の研究を刺激したいと思っています。
関連論文リスト
- Advancing Vietnamese Visual Question Answering with Transformer and Convolutional Integration [0.40964539027092917]
本研究は,ベトナムの視覚質問応答データセットを用いて実験を行うことにより,ギャップを埋めることを目的とする。
画像表現能力を向上し,VVQAシステム全体の性能を向上させるモデルを開発した。
実験結果から,本モデルが競合するベースラインを超え,有望な性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-07-30T22:32:50Z) - ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Generate then Select: Open-ended Visual Question Answering Guided by
World Knowledge [155.81786738036578]
Open-ended Visual Question Answering (VQA)タスクでは、視覚と自然言語の入力をAIモデルが共同で推論する必要がある。
GPT-3のような事前訓練された言語モデル(PLM)がこのタスクに適用され、強力な世界知識源であることが示されている。
我々は,世界的知識によって導かれるジェネレータ選択戦略をデプロイする新しいVQAパイプラインであるRASOを提案する。
論文 参考訳(メタデータ) (2023-05-30T08:34:13Z) - HRVQA: A Visual Question Answering Benchmark for High-Resolution Aerial
Images [18.075338835513993]
我々は,1024×1024ピクセルと1070240QAペアの53512個の空中画像を提供する新しいデータセットであるHRVQAを紹介する。
航空画像に対するVQAモデルの理解能力を評価するため,HRVQAにおける関連手法の評価を行った。
本手法は,従来の最先端手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-01-23T14:36:38Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。