Fugu-MT 論文翻訳(概要): Selective Vision is the Challenge for Visual Reasoning: A Benchmark for Visual Argument Understanding

論文の概要: Selective Vision is the Challenge for Visual Reasoning: A Benchmark for Visual Argument Understanding

arxiv url: http://arxiv.org/abs/2406.18925v1
Date: Thu, 27 Jun 2024 06:32:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 15:06:48.857380
Title: Selective Vision is the Challenge for Visual Reasoning: A Benchmark for Visual Argument Understanding
Title（参考訳）: Selective Visionはビジュアル推論の課題:ビジュアル引数理解のためのベンチマーク
Authors: Jiwan Chung, Sungjae Lee, Minseo Kim, Seungju Han, Ashkan Yousefpour, Jack Hessel, Youngjae Yu,
Abstract要約: 視覚的引数の基盤となる構造を明確にするために設計されたアノテーション付きコーパスであるVisArgsをリリースする。視覚的引数理解のための機械容量を探索するために,VisArgs上での3つのタスクを提案する。 GPT-4-Oは78.5%の精度で、人間は98.0%に達した。
参考スコア（独自算出の注目度）: 30.37049638100344
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual arguments, often used in advertising or social causes, rely on images to persuade viewers to do or believe something. Understanding these arguments requires selective vision: only specific visual stimuli within an image are relevant to the argument, and relevance can only be understood within the context of a broader argumentative structure. While visual arguments are readily appreciated by human audiences, we ask: are today's AI capable of similar understanding? We collect and release VisArgs, an annotated corpus designed to make explicit the (usually implicit) structures underlying visual arguments. VisArgs includes 1,611 images accompanied by three types of textual annotations: 5,112 visual premises (with region annotations), 5,574 commonsense premises, and reasoning trees connecting them to a broader argument. We propose three tasks over VisArgs to probe machine capacity for visual argument understanding: localization of premises, identification of premises, and deduction of conclusions. Experiments demonstrate that 1) machines cannot fully identify the relevant visual cues. The top-performing model, GPT-4-O, achieved an accuracy of only 78.5%, whereas humans reached 98.0%. All models showed a performance drop, with an average decrease in accuracy of 19.5%, when the comparison set was changed from objects outside the image to irrelevant objects within the image. Furthermore, 2) this limitation is the greatest factor impacting their performance in understanding visual arguments. Most models improved the most when given relevant visual premises as additional inputs, compared to other inputs, for deducing the conclusion of the visual argument.
Abstract（参考訳）: 視覚的な議論は、しばしば広告や社会的大義で使用され、視聴者に何かをしたり信じるよう説得するために画像に依存している。画像内の特定の視覚刺激だけが議論に関連するものであり、関連性はより広い議論的構造の文脈内でのみ理解できる。視覚的な議論は、人間の聴衆によって容易に理解されますが、私たちは次のように尋ねます。 VisArgsは、視覚的引数の基盤となる(通常暗黙的な)構造を明確にするために設計されたアノテーション付きコーパスです。 VisArgsには,5,112の視覚的前提(リージョンアノテーション付き),5,574の常識的前提,より広範な議論に接続する推論木という,3種類のテキストアノテーションが付属する1,611のイメージが含まれている。本稿では,VisArgs上の3つのタスクを提案し,視覚的議論理解のための機械能力を探究する: 前提の局所化,前提の同定,結論の導出。実験は 1) 機械は関連した視覚的手がかりを十分に特定できない。 GPT-4-Oは78.5%の精度で、人間は98.0%に達した。全てのモデルでは、画像の外側のオブジェクトから画像内の無関係なオブジェクトに比較セットを変更すると、平均して19.5%の精度で性能が低下した。さらに 2) この制限は、視覚的議論を理解する上で、彼らのパフォーマンスに影響を与える最大の要因である。ほとんどのモデルは、視覚的議論の結論を導出するために、他の入力と比較して、関連する視覚的前提を付加的な入力として与えられたときに最も改善した。

関連論文リスト

From Illusion to Intention: Visual Rationale Learning for Vision-Language Reasoning [19.84653798433995]
本稿では,視覚的合理性自体のトレーニングを基盤とした,エンドツーエンドのパラダイムであるVisual Rationale Learning (ViRL)を提案する。 ViRLは,(1)プロセス・スーパービジョンと,(2)ステップレベルの報酬形成による客観的アライメント,(3)きめ細かなクレジット・アサインメントを統合して,正しく,冗長で,誤動作を区別する。この研究は、透明で検証可能で信頼できる視覚言語モデルを構築するためのタスクに依存しないプロセス基底パラダイムとして、視覚的合理化を確立している。
論文参考訳（メタデータ） (2025-11-28T09:52:56Z)
BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文参考訳（メタデータ） (2025-10-10T13:14:13Z)
Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology [87.65242416688146]
TreeBenchは、ビジュアルグラウンド推論の診断ベンチマークである。 TreeVGRは、強化学習と共同でローカライゼーションと推論を監督する訓練パラダイムである。
論文参考訳（メタデータ） (2025-07-10T17:59:58Z)
Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought [83.89629325805505]
我々は、新しい視覚的注意基盤機構で制限に対処するためにArgusを導入する。提案手法では、物体中心の接地を視覚的連鎖信号として採用し、より効果的な目標条件付き視覚的注意を可能にする。
論文参考訳（メタデータ） (2025-05-29T17:59:56Z)
VAGUE: Visual Contexts Clarify Ambiguous Expressions [15.140825578254324]
目的のための視覚的コンテキストを統合するマルチモーダルAIシステムの能力を評価するベンチマークであるVAGUEを紹介する。 VAGUEは1.6Kの曖昧な文体表現で構成され、それぞれに画像と複数選択の解釈が組み合わされている。我々の実験によると、既存のマルチモーダルAIモデルは話者の真の意図を推測するのに苦労している。
論文参考訳（メタデータ） (2024-11-21T14:01:42Z)
Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts? [62.984473889987605]
本稿では,大規模言語モデルとVQA(Visual Question Answering)システムを活用した,視覚概念学習のためのゼロショットフレームワークを提案する。 VQAシステムに問い合わせ画像とともにこれらの質問を行い、回答を集約し、テスト画像中のオブジェクトの有無を判定する。実験では,既存のゼロショット視覚分類法や少数ショット概念学習手法と同等の性能を示した。
論文参考訳（メタデータ） (2024-10-17T15:16:10Z)
When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images [72.42826916932519]
生成した画像のベンチマークであるJourneyBenchをリリースし、モデルの微細なマルチモーダル推論能力を評価する。既存のベンチマークとは異なり、JourneyBenchは特異な想像上のシナリオにおいて、きめ細かいマルチモーダル推論を必要とする。 5つのタスクにまたがる結果から、JourneyBenchは最高のモデルでも非常に難しい。
論文参考訳（メタデータ） (2024-09-19T17:58:16Z)
Visual Riddles: a Commonsense and World Knowledge Challenge for Large Vision and Language Models [40.41276154014666]
このベンチマークは、常識と世界知識を必要とする視覚的謎の視覚モデルと言語モデルをテストすることを目的としたものだ。ベンチマークは400個のビジュアル・ライドルで構成されており、それぞれが様々なテキスト・ツー・イメージ・モデルによって生成されるユニークなイメージを特徴としている。 Gemini-Pro-1.5は40%の精度で、既存のモデルは82%の精度で人間のパフォーマンスにかなり遅れている。
論文参考訳（メタデータ） (2024-07-28T11:56:03Z)
WinoViz: Probing Visual Properties of Objects Under Different States [39.92628807477848]
本稿では,異なる文脈や状態下でのオブジェクトの異種視覚特性に関する言語モデルの推論能力を探索する,1,380の例からなるテキストのみの評価データセットを提案する。我々の課題は、現実的な推論(意図した意味を表現)と視覚的知識推論を必要とするため、難しい。また、タスクを解決するには、複数のステップの推論チェーンを必要とする、より難しいバージョンのマルチホップデータも提示します。
論文参考訳（メタデータ） (2024-02-21T07:31:47Z)
ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。 GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文参考訳（メタデータ） (2024-01-24T09:07:11Z)
Towards A Unified Neural Architecture for Visual Recognition and Reasoning [40.938279131241764]
視覚認識と推論のための統一型ニューラルアーキテクチャを提案し,両者の汎用インターフェース(トークンなど)を提案する。我々のフレームワークは、視覚的認識タスク、データセット、帰納的バイアスが、原則化された時間的推論機能を実現するのにどのように役立つかを調べることができる。
論文参考訳（メタデータ） (2023-11-10T20:27:43Z)
Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know How to Reason? [30.16956370267339]
視覚質問応答のタスクに対する視覚的表現を評価するためのプロトコルを提案する。視覚的特徴抽出を推論から分離するために,特定の注意に基づく推論モジュールを設計する。局所的な特徴を密に抽出した2種類の視覚表現とオブジェクト中心の視覚表現を、基底真理を用いた完全な画像表現の性能と比較する。
論文参考訳（メタデータ） (2022-12-20T14:36:45Z)
Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object Interactions [138.49522643425334]
Bongard-HOIは、自然画像からの人間と物体の相互作用の合成学習に焦点を当てた、新しい視覚的推論ベンチマークである。古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。 Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
論文参考訳（メタデータ） (2022-05-27T07:36:29Z)
PTR: A Benchmark for Part-based Conceptual, Relational, and Physical Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。 PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文参考訳（メタデータ） (2021-12-09T18:59:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。