論文の概要: JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images
- arxiv url: http://arxiv.org/abs/2409.12953v4
- Date: Fri, 10 Jan 2025 02:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 20:28:10.875604
- Title: JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images
- Title(参考訳): JourneyBench: 生成した画像のベンチマークをワンストップで理解する
- Authors: Zhecan Wang, Junzhang Liu, Chia-Wei Tang, Hani Alomari, Anushka Sivakumar, Rui Sun, Wenhao Li, Md. Atabuzzaman, Hammad Ayyubi, Haoxuan You, Alvi Ishmam, Kai-Wei Chang, Shih-Fu Chang, Chris Thomas,
- Abstract要約: 生成した画像のベンチマークであるJourneyBenchをリリースし、モデルの微細なマルチモーダル推論能力を評価する。
既存のベンチマークとは異なり、JourneyBenchは特異な想像上のシナリオにおいて、きめ細かいマルチモーダル推論を必要とする。
5つのタスクにまたがる結果から、JourneyBenchは最高のモデルでも非常に難しい。
- 参考スコア(独自算出の注目度): 72.42826916932519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing vision-language understanding benchmarks largely consist of images of objects in their usual contexts. As a consequence, recent multimodal large language models can perform well with only a shallow visual understanding by relying on background language biases. Thus, strong performance on these benchmarks does not necessarily correlate with strong visual understanding. In this paper, we release JourneyBench, a comprehensive human-annotated benchmark of generated images designed to assess the model's fine-grained multimodal reasoning abilities across five tasks: complementary multimodal chain of thought, multi-image VQA, imaginary image captioning, VQA with hallucination triggers, and fine-grained retrieval with sample-specific distractors. Unlike existing benchmarks, JourneyBench explicitly requires fine-grained multimodal reasoning in unusual imaginary scenarios where language bias and holistic image gist are insufficient. We benchmark state-of-the-art models on JourneyBench and analyze performance along a number of fine-grained dimensions. Results across all five tasks show that JourneyBench is exceptionally challenging for even the best models, indicating that models' visual reasoning abilities are not as strong as they first appear. We discuss the implications of our findings and propose avenues for further research.
- Abstract(参考訳): 既存の視覚言語理解ベンチマークは、主に通常のコンテキストにおけるオブジェクトのイメージで構成されている。
その結果、最近のマルチモーダルな大規模言語モデルは、背景言語バイアスに頼ることで、浅い視覚的理解だけでうまく機能する。
したがって、これらのベンチマークの強い性能は、必ずしも強い視覚的理解と相関しない。
本稿では,5つのタスク – 相補的マルチモーダル連鎖,マルチモーダルVQA,想像的イメージキャプション,幻覚トリガ付きVQA,サンプル特異的イントラクタを用いたきめ細かな検索 – において,モデルの細粒度マルチモーダル推論能力を評価するために設計された,生成された画像の包括的な人間アノテーションベンチマークであるJourneyBenchをリリースする。
既存のベンチマークとは異なり、JourneyBenchは言語バイアスと全体像が不十分な特異な想像上のシナリオにおいて、きめ細かいマルチモーダル推論を必要とする。
我々はJourneyBenchの最先端モデルをベンチマークし、多数のきめ細かい寸法に沿って性能を解析する。
5つのタスクにまたがる結果は、JourneyBenchが最高のモデルでも非常に難しいことを示し、モデルの視覚的推論能力が最初に現れるほど強くないことを示している。
本研究の意義を考察し,今後の研究への道筋を提案する。
関連論文リスト
- TSRBench: A Comprehensive Multi-task Multi-modal Time Series Reasoning Benchmark for Generalist Models [52.21298691935726]
時系列で推論する能力は、ジェネラリストモデルが現実的な問題を解決するための基本的なスキルである。
このギャップを埋めるために、時系列推論機能の全スペクトルをストレステストするために設計された総合的なベンチマークであるTSRBenchを紹介する。
論文 参考訳(メタデータ) (2026-01-26T18:04:54Z) - Deep But Reliable: Advancing Multi-turn Reasoning for Thinking with Images [53.373427633330515]
DRIMは,マルチモーダルCoTの画像について考える際に,深層かつ信頼性の高いマルチターン推論を可能にするモデルである。
高精細画像データセットに基づいて,高精細かつ検証可能な視覚的問合せ対を構築する。
SFTの段階では,ツールトラジェクトリをコールドスタートデータとして収集し,マルチターン推論パターンを導出する。
RLの段階では、冗長性を考慮したポリシー最適化を導入し、自己反射的推論パターンを開発するためのモデルにインセンティブを与える。
論文 参考訳(メタデータ) (2025-12-19T07:44:43Z) - VisChainBench: A Benchmark for Multi-Turn, Multi-Image Visual Reasoning Beyond Language Priors [32.4515119002324]
VisChainBenchは、LVLM(Large Vision-Language Models)を厳格に評価するために設計されたベンチマークである。
3つの異なる領域(例えば、日々のシナリオ、エンジニアリングのトラブルシューティング)にわたる20,000以上のイメージにまたがる1,457のタスクを含んでいる。
ユニークなことに、ベンチマークはマルチエージェント生成パイプラインを使用して構築されており、高い視覚的多様性と制御された言語バイアスを保証する。
論文 参考訳(メタデータ) (2025-12-07T09:48:10Z) - MathSight: A Benchmark Exploring Have Vision-Language Models Really Seen in University-Level Mathematical Reasoning? [21.777853590188688]
大学レベルのマルチモーダル数学的推論ベンチマークであるMathSightを提案する。
最先端のVision-Language Modelの実験は、一貫した傾向を示している。
論文 参考訳(メタデータ) (2025-11-28T11:55:05Z) - When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought [118.71264263478083]
MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。
546のマルチモーダル問題を含み、中間画像と最終回答が注釈付きである。
論文 参考訳(メタデータ) (2025-11-04T18:00:51Z) - TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning [30.018325742295243]
OpenAI o3は問題解決のためにイメージを変換するツールを作成、運用することができる。
ビジュアル検索のテストは、ローカライズやトリミングといった基本的な操作のみであり、より複雑で動的で、ツールに依存した推論に関する洞察はほとんど提供されない。
エージェント思考とイメージを13種類のタスクで評価するための総合的なベンチマークである textbfTIR-Bench を紹介する。
論文 参考訳(メタデータ) (2025-11-03T18:40:17Z) - BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。
外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。
事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文 参考訳(メタデータ) (2025-10-10T13:14:13Z) - MiCo: Multi-image Contrast for Reinforcement Visual Reasoning [72.81576836419373]
CoT(Chain-of-Thought)推論は、複数の画像に視覚的手がかりをリンクするために使用することができる。
視覚言語モデル(VLM)の規則に基づく強化学習に適応する
提案手法は,マルチイメージ推論ベンチマークにおいて大幅な改善を実現し,汎用視覚タスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2025-06-27T17:59:27Z) - VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge [45.20691825097646]
私たちはビジュアル推論をターゲットとしたベンチマークであるVisualPuzzlesを紹介します。
VisualPuzzlesは5つのカテゴリにまたがる多様な質問で構成されている。
論文 参考訳(メタデータ) (2025-04-14T15:50:39Z) - TDBench: Benchmarking Vision-Language Models in Understanding Top-Down Images [1.8668361563848481]
TDBenchは、トップダウン画像理解におけるVLM(Vision-Language Models)の包括的なベンチマークである。
画像理解の10つの評価次元にまたがる視覚的質問応答対で構成されている。
現実のシナリオでは一般的に発生するが、探索は少ない4つのケーススタディを実行します。
論文 参考訳(メタデータ) (2025-04-01T19:01:13Z) - The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles [29.214813685163218]
OpenAIのo-[n]シリーズ(o1、o3、o4-mini)のリリースは、大規模言語モデルにおける重要なパラダイムシフトである。
GPT-[n] および o-[n] 級数モデルの進化を、挑戦的なマルチモーダルパズル上で追跡する。
以上の結果から, o-[n] 級数,特に o3 や o4-mini のような後続の反復は GPT-[n] 級数を著しく上回り,マルチモーダル推論において高いスケーラビリティを示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T05:47:04Z) - MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文 参考訳(メタデータ) (2024-12-05T17:08:19Z) - Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Infer Causal Links Between Siamese Images [19.923665989164387]
我々は,Multimodal Causal Reasoningベンチマーク,すなわち MuCR を提案し,大規模言語モデルに挑戦する。
具体的には,セマンティック因果関係と視覚的手がかりを組み込んだシアム画像を作成するための,プロンプト駆動画像合成手法を提案する。
我々の広範な実験により、現在最先端のVLLMは、我々が期待したようなマルチモーダル因果推論に熟練していないことが明らかとなった。
論文 参考訳(メタデータ) (2024-08-15T12:04:32Z) - Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning [15.296263261737026]
マルチイメージMIRBベンチマークを導入し、複数の画像を比較し、分析し、推論する視覚言語モデルの能力を評価する。
私たちのベンチマークには、知覚、視覚世界知識、推論、マルチホップ推論の4つのカテゴリが含まれています。
オープンソースVLMはシングルイメージタスクにおいてGPT-4Vに接近することを示したが、マルチイメージ推論タスクでは大きなギャップが残っている。
論文 参考訳(メタデータ) (2024-06-18T16:02:18Z) - NPHardEval4V: Dynamic Evaluation of Large Vision-Language Models with Effects of Vision [64.83085920775316]
NPHardEval4Vは4つの古典的NPハード問題に基づくマルチモーダルベンチマークスイートである。
各タスクは、構造化された視覚レイアウトとテキストプロンプトを組み合わせることで、視覚言語的制約の下で推論を行うLVLMの能力を評価するように設計されている。
以上の結果から,これらのモデルは知覚に基づく入力に対して合理的に優れているが,グローバルな最適化,抽象化,制約満足度に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - REBUS: A Robust Evaluation Benchmark of Understanding Symbols [1.90463290938268]
GPT-4oは他の全てのモデルよりも大幅に優れ、続いてプロプライエタリなモデルも他の評価モデルよりも優れていた。
最高のモデルでさえ、最終的な精度はわずか42%で、ハードパズルでは7%に低下する。
したがって、我々のベンチマークは、マルチモーダルな大言語モデルの知識と推論における大きな欠点を特定するのに利用できる。
論文 参考訳(メタデータ) (2024-01-11T00:30:28Z) - Chain of Images for Intuitively Reasoning [23.692458865558486]
本稿では,複雑な言語推論問題を単純なパターン認識に変換するために,画像の連鎖(CoI)アプローチを提案する。
我々は、画像が直感的に問題解決を支援する15の異なる領域を含むCoI評価データセットを開発した。
CoI推論を支援するために,言語命令に基づいて厳密に画像を生成するシンボリック・マルチモーダル・大規模言語モデル(SyMLLM)を導入する。
論文 参考訳(メタデータ) (2023-11-09T11:14:51Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文 参考訳(メタデータ) (2023-04-21T09:07:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。