論文の概要: GENFIG1: Visual Summaries of Scholarly Work as a Challenge for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.04172v1
- Date: Sun, 05 Apr 2026 16:30:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.958945
- Title: GENFIG1: Visual Summaries of Scholarly Work as a Challenge for Vision-Language Models
- Title(参考訳): genFIG1:視覚言語モデルの課題としてのScholarly Workのビジュアル・サマリ
- Authors: Yaohan Guan, Pristina Wang, Najim Dehak, Alan Yuille, Jieneng Chen, Daniel Khashabi,
- Abstract要約: 生成AIモデル(ビジョンランゲージモデルなど)のベンチマークであるGENFIG1を導入する。
GENFIG1は、紙の中心的な概念をはっきりと表現し動機づける図形を作成する能力のモデルを評価する。
GENFIG1上の代表モデルの集合を評価し,そのタスクが,最高の性能システムであっても,大きな課題を呈することを示した。
- 参考スコア(独自算出の注目度): 39.79177783850843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many science papers, "Figure 1" serves as the primary visual summary of the core research idea. These figures are visually simple yet conceptually rich, often requiring significant effort and iteration by human authors to get right, highlighting the difficulty of science visual communication. With this intuition, we introduce GENFIG1, a benchmark for generative AI models (e.g., Vision-Language Models). GENFIG1 evaluates models for their ability to produce figures that clearly express and motivate the central idea of a paper (title, abstract, introduction, and figure caption) as input. Solving GENFIG1 requires more than producing visually appealing graphics: the task entails reasoning for text-to-image generation that couples scientific understanding with visual synthesis. Specifically, models must (i) comprehend and grasp the technical concepts of the paper, (ii) identify the most salient ones, and (iii) design a coherent and aesthetically effective graphic that conveys those concepts visually and is faithful to the input. We curate the benchmark from papers published at top deep-learning conferences, apply stringent quality control, and introduce an automatic evaluation metric that correlates well with expert human judgments. We evaluate a suite of representative models on GENFIG1 and demonstrate that the task presents significant challenges, even for the best-performing systems. We hope this benchmark serves as a foundation for future progress in multimodal AI.
- Abstract(参考訳): 多くの科学論文において、「図1」は中核研究思想の第一の視覚的要約として機能している。
これらの図は視覚的に単純だが概念的には豊かであり、しばしば人間の著者が正しいものにするために多大な努力と反復を必要とし、科学的な視覚コミュニケーションの難しさを浮き彫りにしている。
この直感により、生成AIモデル(例えば、ビジョンランゲージモデル)のベンチマークであるGENFIG1を導入する。
GENFIG1は、紙の中央概念(タイトル、抽象、導入、図形キャプション)を入力として明確に表現し、動機づけする図形を作成する能力のモデルを評価する。
genFIG1の解決には、視覚的に魅力的なグラフィックを生成する以上のことが必要であり、そのタスクは、科学的理解と視覚合成を結合したテキスト・画像生成の推論を必要とする。
特に モデルは
一 論文の技術的概念を理解し、把握すること。
(二)最もまともなものを識別し、
三 それらの概念を視覚的に伝達し、入力に忠実な整合的で美的なグラフィックを設計すること。
トップレベルのディープラーニングカンファレンスで発表された論文からベンチマークをキュレートし、厳密な品質管理を適用し、専門家の判断とよく相関する自動評価指標を導入する。
GENFIG1 上の代表モデルの集合を評価し、そのタスクが最高の性能のシステムであっても大きな課題を呈することを示した。
このベンチマークが、マルチモーダルAIの今後の進歩の基盤になることを期待しています。
関連論文リスト
- Toward a Machine Bertin: Why Visualization Needs Design Principles for Machine Cognition [0.27074235008521247]
視覚言語モデル(VLM)は、自動分析パイプラインのチャートイメージをますます消費する。
現在のアプローチでは、主にビジョンを完全にバイパスすることで、このギャップに対処しています。
本稿では、可視化分野において、異なる研究課題として、マシン指向の視覚設計を調査する必要があることを論じる。
論文 参考訳(メタデータ) (2026-02-02T01:39:33Z) - GenExam: A Multidisciplinary Text-to-Image Exam [91.06661449186537]
GenExamは、複数の学際的なテキスト・ツー・イメージテストのための最初のベンチマークである。
試験スタイルのプロンプトを4段階の分類で編成した10の被験者に1,000のサンプルを配置している。
それぞれの問題には、グランドトラスト画像ときめ細かいスコアポイントが備わっている。
論文 参考訳(メタデータ) (2025-09-17T17:59:14Z) - Visual Graph Arena: Evaluating Visual Conceptualization of Vision and Multimodal Large Language Models [51.900488744931785]
視覚抽象化のためのAIシステムの能力を評価し改善するためのビジュアルグラフアリーナ(VGA)を導入する。
人間はタスク間でほぼ完璧な精度を達成し、モデルは同型検出で完全に失敗し、パス/サイクルタスクにおいて限られた成功を示した。
表現不変推論の課題を分離することにより、VGAは、AIビジュアルモデルにおける人間のような概念化に向けた前進を促進するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2025-06-06T17:06:25Z) - SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model [21.81341169834812]
SridBenchは、科学フィギュア生成のための最初のベンチマークである。
これは13の自然科学とコンピュータ科学の分野にわたる主要な科学論文から1,120の事例で構成されている。
その結果、GPT-4o画像のような最上位モデルでさえ、人間のパフォーマンスに遅れがあることが判明した。
論文 参考訳(メタデータ) (2025-05-28T08:51:01Z) - PreGenie: An Agentic Framework for High-quality Visual Presentation Generation [44.93958820783717]
PreGenieは、マルチモーダルな大規模言語モデル(MLLM)を利用して高品質なビジュアルプレゼンテーションを生成するエージェント型でモジュール型のフレームワークである。
1)マルチモーダル入力を要約して初期コードを生成する解析と初期生成,(2)中間コードを反復的にレビューし,スライドを描画して最終品質の高いプレゼンテーションを生成するレビューと再生成の2段階で動作する。
論文 参考訳(メタデータ) (2025-05-27T18:36:19Z) - VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks [48.67062958311173]
VL-GLUEは、自然言語理解のためのマルチタスクベンチマークである。
既存の大規模視覚言語モデルでは,このベンチマークは非常に難しい。
論文 参考訳(メタデータ) (2024-10-17T15:27:17Z) - Graph Meets LLMs: Towards Large Graph Models [60.24970313736175]
本稿では,大規模グラフモデルの開発に伴う課題と機会について論じる。
まず,大規模グラフモデルの所望の特性について考察する。
次に、表現ベース、グラフデータ、グラフモデルという3つの重要な視点から詳細な議論を行う。
論文 参考訳(メタデータ) (2023-08-28T12:17:51Z) - Vision-Language Models in Remote Sensing: Current Progress and Future Trends [25.017685538386548]
視覚言語モデルは、画像とその関連するテキスト記述の推論を可能にし、基礎となるセマンティクスのより深い理解を可能にする。
視覚言語モデルは、RS画像の視覚的認識を超えて、意味的関係をモデル化し、画像の自然言語記述を生成することができる。
本稿では,リモートセンシングにおける視覚言語モデルの研究を包括的にレビューする。
論文 参考訳(メタデータ) (2023-05-09T19:17:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。