論文の概要: AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation
- arxiv url: http://arxiv.org/abs/2603.28068v1
- Date: Mon, 30 Mar 2026 06:14:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.253178
- Title: AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation
- Title(参考訳): AIBench: アカデミックイラストレーション生成における視覚論理的一貫性の評価
- Authors: Zhaohe Liao, Kaixun Jiang, Zhihang Liu, Yujie Wei, Junqiu Yu, Quanhao Li, Hong-Tao Yu, Pandeng Li, Yuzheng Wang, Zhen Xing, Shiwei Zhang, Chen-Wei Xie, Yun Zheng, Xihui Liu,
- Abstract要約: 本稿では,学術イラストの論理的正確性を評価するためにVQAを用いた最初のベンチマークであるAIBenchと美学評価のためのVLMを提案する。
我々のVQAベースのアプローチは、判断器VLMの能力に頼らず、視覚的論理的整合性をより正確かつ詳細に評価する。
- 参考スコア(独自算出の注目度): 50.68300726392683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although image generation has boosted various applications via its rapid evolution, whether the state-of-the-art models are able to produce ready-to-use academic illustrations for papers is still largely unexplored.Directly comparing or evaluating the illustration with VLM is native but requires oracle multi-modal understanding ability, which is unreliable for long and complex texts and illustrations. To address this, we propose AIBench, the first benchmark using VQA for evaluating logic correctness of the academic illustrations and VLMs for assessing aesthetics. In detail, we designed four levels of questions proposed from a logic diagram summarized from the method part of the paper, which query whether the generated illustration aligns with the paper on different scales. Our VQA-based approach raises more accurate and detailed evaluations on visual-logical consistency while relying less on the ability of the judger VLM. With our high-quality AIBench, we conduct extensive experiments and conclude that the performance gap between models on this task is significantly larger than general ones, reflecting their various complex reasoning and high-density generation ability. Further, the logic and aesthetics are hard to optimize simultaneously as in handcrafted illustrations. Additional experiments further state that test-time scaling on both abilities significantly boosts the performance on this task.
- Abstract(参考訳): 画像生成は、その急速な進化を通じて様々な応用を加速してきたが、最先端のモデルが論文のための準備済みの学術イラストを作成できるかどうかはまだ明らかになっていない。VLMと直接比較または評価することはネイティブであるが、長く複雑なテキストやイラストには信頼性の低いオラクル多モード理解能力を必要とする。
そこで本研究では,学術イラストの論理的正確性を評価するためにVQAを使用した最初のベンチマークであるAIBenchと美学評価のためのVLMを提案する。
筆者らは,論文の手法部分から要約した論理図から提案した4段階の質問を設計した。
我々のVQAベースのアプローチは、判断器VLMの能力に頼らず、視覚的論理的整合性をより正確かつ詳細に評価する。
高品質なAIBenchでは、広範囲な実験を行い、このタスクのモデル間の性能ギャップは一般的なモデルよりもかなり大きいと結論付け、それらの複雑な推論と高密度生成能力を反映している。
さらに、手作りのイラストのように、論理と美学を同時に最適化することは困難である。
追加の実験では、両方の能力におけるテストタイムのスケーリングが、このタスクのパフォーマンスを著しく向上させると述べている。
関連論文リスト
- How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing [56.60465182650588]
我々は,3段階の相互作用階層を導入し,決定的接地,形態的操作,因果推論を捉える。
本稿では,スケーラブルできめ細かい評価を実現するために,タスク固有のメトリクスを備えた堅牢なLMM-as-a-judge評価フレームワークを提案する。
プロプライエタリなモデルは早期の視覚指示追従能力を示し、一貫してオープンソースモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2026-02-02T09:24:45Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。
グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。
評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-28T17:59:54Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Interpretable Neural Computation for Real-World Compositional Visual
Question Answering [4.3668650778541895]
実世界の合成VQAのための解釈可能なフレームワークを構築した。
このフレームワークでは,画像や質問をシーングラフやプログラムに切り離し,その上でシンボルプログラムが実行され,注意領域を選択するための完全な透過性がある。
GQAベンチマークで行った実験により,本フレームワークはモノリシックなモノリシックなモノリシックなモノリシックなモノリシックなプリエントアーツと競争の精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-10-10T05:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。