論文の概要: Selective Vision is the Challenge for Visual Reasoning: A Benchmark for Visual Argument Understanding
- arxiv url: http://arxiv.org/abs/2406.18925v1
- Date: Thu, 27 Jun 2024 06:32:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 15:06:48.857380
- Title: Selective Vision is the Challenge for Visual Reasoning: A Benchmark for Visual Argument Understanding
- Title(参考訳): Selective Visionはビジュアル推論の課題:ビジュアル引数理解のためのベンチマーク
- Authors: Jiwan Chung, Sungjae Lee, Minseo Kim, Seungju Han, Ashkan Yousefpour, Jack Hessel, Youngjae Yu,
- Abstract要約: 視覚的引数の基盤となる構造を明確にするために設計されたアノテーション付きコーパスであるVisArgsをリリースする。
視覚的引数理解のための機械容量を探索するために,VisArgs上での3つのタスクを提案する。
GPT-4-Oは78.5%の精度で、人間は98.0%に達した。
- 参考スコア(独自算出の注目度): 30.37049638100344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual arguments, often used in advertising or social causes, rely on images to persuade viewers to do or believe something. Understanding these arguments requires selective vision: only specific visual stimuli within an image are relevant to the argument, and relevance can only be understood within the context of a broader argumentative structure. While visual arguments are readily appreciated by human audiences, we ask: are today's AI capable of similar understanding? We collect and release VisArgs, an annotated corpus designed to make explicit the (usually implicit) structures underlying visual arguments. VisArgs includes 1,611 images accompanied by three types of textual annotations: 5,112 visual premises (with region annotations), 5,574 commonsense premises, and reasoning trees connecting them to a broader argument. We propose three tasks over VisArgs to probe machine capacity for visual argument understanding: localization of premises, identification of premises, and deduction of conclusions. Experiments demonstrate that 1) machines cannot fully identify the relevant visual cues. The top-performing model, GPT-4-O, achieved an accuracy of only 78.5%, whereas humans reached 98.0%. All models showed a performance drop, with an average decrease in accuracy of 19.5%, when the comparison set was changed from objects outside the image to irrelevant objects within the image. Furthermore, 2) this limitation is the greatest factor impacting their performance in understanding visual arguments. Most models improved the most when given relevant visual premises as additional inputs, compared to other inputs, for deducing the conclusion of the visual argument.
- Abstract(参考訳): 視覚的な議論は、しばしば広告や社会的大義で使用され、視聴者に何かをしたり信じるよう説得するために画像に依存している。
画像内の特定の視覚刺激だけが議論に関連するものであり、関連性はより広い議論的構造の文脈内でのみ理解できる。
視覚的な議論は、人間の聴衆によって容易に理解されますが、私たちは次のように尋ねます。
VisArgsは、視覚的引数の基盤となる(通常暗黙的な)構造を明確にするために設計されたアノテーション付きコーパスです。
VisArgsには,5,112の視覚的前提(リージョンアノテーション付き),5,574の常識的前提,より広範な議論に接続する推論木という,3種類のテキストアノテーションが付属する1,611のイメージが含まれている。
本稿では,VisArgs上の3つのタスクを提案し,視覚的議論理解のための機械能力を探究する: 前提の局所化,前提の同定,結論の導出。
実験は
1) 機械は関連した視覚的手がかりを十分に特定できない。
GPT-4-Oは78.5%の精度で、人間は98.0%に達した。
全てのモデルでは、画像の外側のオブジェクトから画像内の無関係なオブジェクトに比較セットを変更すると、平均して19.5%の精度で性能が低下した。
さらに
2) この制限は、視覚的議論を理解する上で、彼らのパフォーマンスに影響を与える最大の要因である。
ほとんどのモデルは、視覚的議論の結論を導出するために、他の入力と比較して、関連する視覚的前提を付加的な入力として与えられたときに最も改善した。
関連論文リスト
- DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests [69.00444996464662]
本稿では、複雑な実世界のシナリオにおける視覚的連鎖推論を評価するために、駆動理論テストから得られた新しいベンチマークであるDrivingVQAを提案する。
実験の結果,オープンソースおよびプロプライエタリなLVLMは,ゼロショット設定下での視覚的連鎖推論に苦慮していることがわかった。
視覚的推論を改善するために関連エンティティを活用するトレーニング戦略について検討する。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images [72.42826916932519]
生成した画像のベンチマークであるJourneyBenchをリリースし、モデルの微細なマルチモーダル推論能力を評価する。
既存のベンチマークとは異なり、JourneyBenchは特異な想像上のシナリオにおいて、きめ細かいマルチモーダル推論を必要とする。
5つのタスクにまたがる結果から、JourneyBenchは最高のモデルでも非常に難しい。
論文 参考訳(メタデータ) (2024-09-19T17:58:16Z) - Visual Riddles: a Commonsense and World Knowledge Challenge for Large Vision and Language Models [40.41276154014666]
このベンチマークは、常識と世界知識を必要とする視覚的謎の視覚モデルと言語モデルをテストすることを目的としたものだ。
ベンチマークは400個のビジュアル・ライドルで構成されており、それぞれが様々なテキスト・ツー・イメージ・モデルによって生成されるユニークなイメージを特徴としている。
Gemini-Pro-1.5は40%の精度で、既存のモデルは82%の精度で人間のパフォーマンスにかなり遅れている。
論文 参考訳(メタデータ) (2024-07-28T11:56:03Z) - WinoViz: Probing Visual Properties of Objects Under Different States [39.92628807477848]
本稿では,異なる文脈や状態下でのオブジェクトの異種視覚特性に関する言語モデルの推論能力を探索する,1,380の例からなるテキストのみの評価データセットを提案する。
我々の課題は、現実的な推論(意図した意味を表現)と視覚的知識推論を必要とするため、難しい。
また、タスクを解決するには、複数のステップの推論チェーンを必要とする、より難しいバージョンのマルチホップデータも提示します。
論文 参考訳(メタデータ) (2024-02-21T07:31:47Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - Towards A Unified Neural Architecture for Visual Recognition and
Reasoning [40.938279131241764]
視覚認識と推論のための統一型ニューラルアーキテクチャを提案し,両者の汎用インターフェース(トークンなど)を提案する。
我々のフレームワークは、視覚的認識タスク、データセット、帰納的バイアスが、原則化された時間的推論機能を実現するのにどのように役立つかを調べることができる。
論文 参考訳(メタデータ) (2023-11-10T20:27:43Z) - Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know
How to Reason? [30.16956370267339]
視覚質問応答のタスクに対する視覚的表現を評価するためのプロトコルを提案する。
視覚的特徴抽出を推論から分離するために,特定の注意に基づく推論モジュールを設計する。
局所的な特徴を密に抽出した2種類の視覚表現とオブジェクト中心の視覚表現を、基底真理を用いた完全な画像表現の性能と比較する。
論文 参考訳(メタデータ) (2022-12-20T14:36:45Z) - Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object
Interactions [138.49522643425334]
Bongard-HOIは、自然画像からの人間と物体の相互作用の合成学習に焦点を当てた、新しい視覚的推論ベンチマークである。
古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。
Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
論文 参考訳(メタデータ) (2022-05-27T07:36:29Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。