論文の概要: ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs
- arxiv url: http://arxiv.org/abs/2406.08164v3
- Date: Wed, 13 Nov 2024 00:15:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:33.527854
- Title: ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs
- Title(参考訳): ConMe: 現代VLMにおける構成推論の評価の再考
- Authors: Irene Huang, Wei Lin, M. Jehanzeb Mirza, Jacob A. Hansen, Sivan Doveh, Victor Ion Butoi, Roei Herzig, Assaf Arbelle, Hilde Kuehne, Trevor Darrell, Chuang Gan, Aude Oliva, Rogerio Feris, Leonid Karlinsky,
- Abstract要約: 構成推論(CR)は属性、関係、単語の順序の重要さを把握する。
近年の視覚言語モデル (VLM) は、そのような推論タスクにおいて顕著な習熟性を示している。
- 参考スコア(独自算出の注目度): 95.15814662348245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compositional Reasoning (CR) entails grasping the significance of attributes, relations, and word order. Recent Vision-Language Models (VLMs), comprising a visual encoder and a Large Language Model (LLM) decoder, have demonstrated remarkable proficiency in such reasoning tasks. This prompts a crucial question: have VLMs effectively tackled the CR challenge? We conjecture that existing CR benchmarks may not adequately push the boundaries of modern VLMs due to the reliance on an LLM-only negative text generation pipeline. Consequently, the negatives produced either appear as outliers from the natural language distribution learned by VLMs' LLM decoders or as improbable within the corresponding image context. To address these limitations, we introduce ConMe -- a compositional reasoning benchmark and a novel data generation pipeline leveraging VLMs to produce `hard CR Q&A'. Through a new concept of VLMs conversing with each other to collaboratively expose their weaknesses, our pipeline autonomously generates, evaluates, and selects challenging compositional reasoning questions, establishing a robust CR benchmark, also subsequently validated manually. Our benchmark provokes a noteworthy, up to 33%, decrease in CR performance compared to preceding benchmarks, reinstating the CR challenge even for state-of-the-art VLMs.
- Abstract(参考訳): 構成推論(CR)は属性、関係、単語の順序の重要さを把握する。
近年の視覚言語モデル(VLM)は,視覚エンコーダと大言語モデル(LLM)デコーダから構成される。
VLMはCRの課題に効果的に取り組みましたか?
既存のCRベンチマークは、LLMのみの負のテキスト生成パイプラインに依存するため、現代のVLMの境界を適切に押し付けない可能性がある。
その結果、生成した負の値は、VLMのLLMデコーダによって学習された自然言語分布から外れ値として現れるか、対応する画像コンテキスト内では不適切な値として現れる。
これらの制限に対処するため、コンメ - 合成推論ベンチマークと、VLMを活用して'hard CR Q&A'を生成する新しいデータ生成パイプラインを導入する。
我々のパイプラインは、互いに会話して弱点を共同で公開する新しい概念を通じて、困難な構成的推論質問を自律的に生成し、評価し、選択し、堅牢なCRベンチマークを確立し、その後、手動で検証する。
我々のベンチマークでは,従来のベンチマークと比較してCR性能が最大33%低下し,最先端のVLMにおいてもCRの課題が再燃している。
関連論文リスト
- Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文 参考訳(メタデータ) (2025-07-10T15:26:41Z) - CF-VLM:CounterFactual Vision-Language Fine-tuning [10.299136720220416]
CounterFactual Vision-Language Fine-tuning (CF-VLM)は、視覚言語モデルの因果推論能力を高める新しいフレームワークである。
CF-VLMは3つの補完的なトレーニング目標を導入している: 基本的なクロスモーダルアライメントの維持、実写シーン表現のユニークさと安定性の強化、最小限ながら重要な因果編集に対するモデルの感度の強化。
論文 参考訳(メタデータ) (2025-06-10T20:20:05Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - Misaligning Reasoning with Answers -- A Framework for Assessing LLM CoT Robustness [3.9930400744726273]
我々は,回答と推論の関係を調べるために,MATCHAという新しい評価フレームワークを設計する。
教育や医療といった分野では、推論は信頼性をモデル化するための鍵となる。
以上の結果から,LLMは論理的タスクよりも多段階・常識的タスクに対する入力摂動の脆弱性が大きいことが示唆された。
論文 参考訳(メタデータ) (2025-05-23T02:42:16Z) - Towards Contamination Resistant Benchmarks [0.6906005491572401]
大規模言語モデル(LLM)を適切に評価することは、その可能性を理解し、安全性などの懸念に対処するために重要である。
汚染は評価の信頼性を損なう重要な問題です
本稿では, カエサル暗号に基づくベンチマーク(例えば, シフトが 1 のとき "ab" から "bc" など)を提案する。
論文 参考訳(メタデータ) (2025-05-13T09:35:40Z) - CODECRASH: Stress Testing LLM Reasoning under Structural and Semantic Perturbations [36.60702578561009]
CodeCrashは、コード構造とテキストの乱れによる堅牢性を評価する統一ベンチマークである。
直接および連鎖推定を用いた17大言語モデル(LLM)の評価を行った。
構造ノイズ下でのLSMの脆弱さと,自然言語の手がかりに依存していることが本研究で明らかになった。
論文 参考訳(メタデータ) (2025-04-19T00:40:28Z) - Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [69.68265487134686]
Video SimpleQAは、LVLMの事実性評価に適した最初の総合的なベンチマークである。
私たちの研究は、以下の重要な機能を通じて、既存のビデオベンチマークと区別します。
答えは、簡潔なフォーマットで曖昧で決定的に正しいものとして作成されます。
論文 参考訳(メタデータ) (2025-03-24T17:46:09Z) - ConvCodeWorld: Benchmarking Conversational Code Generation in Reproducible Feedback Environments [37.203500949798766]
大規模言語モデル(LLM)は、特に対話的な設定において、コード生成に有用であることが証明されている。
既存のコード生成ベンチマークでは、マルチターンインタラクションで発生するさまざまなフィードバックをキャプチャできない。
コード生成LLMに提供されるフィードバックの質を明示的にモデル化する新しいベンチマークのセットを提示する。
論文 参考訳(メタデータ) (2025-02-27T07:54:32Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - FVEval: Understanding Language Model Capabilities in Formal Verification of Digital Hardware [4.480157114854711]
FVEvalは,形式的検証(FV)に関わるタスクにおいて,大規模言語モデル(LLM)のパフォーマンスを特徴付ける最初の総合ベンチマークである。
ベンチマークは3つのサブタスクで構成され、異なるレベルでLLM能力を測定する。
本稿では,FVに整合した合成例を生成するための,専門家による検証手法と手法のコレクションについて述べる。
論文 参考訳(メタデータ) (2024-10-15T21:48:57Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - ReForm-Eval: Evaluating Large Vision Language Models via Unified
Re-Formulation of Task-Oriented Benchmarks [76.25209974199274]
大規模視覚言語モデル(LVLM)は、視覚信号を知覚し、視覚的根拠を持つ推論を行う驚くべき能力を示す。
当社のベンチマークおよび評価フレームワークは,LVLMの開発を進めるための基盤としてオープンソース化される予定である。
論文 参考訳(メタデータ) (2023-10-04T04:07:37Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - An Examination of the Compositionality of Large Generative Vision-Language Models [7.639748270719836]
GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。
本稿では,GVLMの構成性を評価するための評価指標(VisualGPTScoreなど)と現在のベンチマークについて検討する。
我々は,GVLMの言語的能力を利用して,現在のベンチマークにおける構文バイアスを同定する。
論文 参考訳(メタデータ) (2023-08-21T06:50:29Z) - Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and Specificity [45.86789047206224]
本稿では,ゼロショット認識における視覚言語モデル(VLM)の評価のための新しいベンチマークを提案する。
我々のベンチマークは、意味的粒度レベルにおける概念理解におけるVLMの一貫性と、テキストの特異性に対する応答を検証した。
発見によると、VLMは微粒な概念を適度に好み、特異性に苦しむ。
論文 参考訳(メタデータ) (2023-06-28T09:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。