論文の概要: WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences
- arxiv url: http://arxiv.org/abs/2406.11069v1
- Date: Sun, 16 Jun 2024 20:53:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 19:03:42.151149
- Title: WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences
- Title(参考訳): WildVision:人間の嗜好による野生の視覚・言語モデルの評価
- Authors: Yujie Lu, Dongfu Jiang, Wenhu Chen, William Yang Wang, Yejin Choi, Bill Yuchen Lin,
- Abstract要約: WildVision-Arena(WV-Arena)は、人間の好みを収集して視覚言語モデル(VLM)を評価するオンラインプラットフォームです。
WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。
実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。
- 参考スコア(独自算出の注目度): 122.87483437694706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent breakthroughs in vision-language models (VLMs) emphasize the necessity of benchmarking human preferences in real-world multimodal interactions. To address this gap, we launched WildVision-Arena (WV-Arena), an online platform that collects human preferences to evaluate VLMs. We curated WV-Bench by selecting 500 high-quality samples from 8,000 user submissions in WV-Arena. WV-Bench uses GPT-4 as the judge to compare each VLM with Claude-3-Sonnet, achieving a Spearman correlation of 0.94 with the WV-Arena Elo. This significantly outperforms other benchmarks like MMVet, MMMU, and MMStar. Our comprehensive analysis of 20K real-world interactions reveals important insights into the failure cases of top-performing VLMs. For example, we find that although GPT-4V surpasses many other models like Reka-Flash, Opus, and Yi-VL-Plus in simple visual recognition and reasoning tasks, it still faces challenges with subtle contextual cues, spatial reasoning, visual imagination, and expert domain knowledge. Additionally, current VLMs exhibit issues with hallucinations and safety when intentionally provoked. We are releasing our chat and feedback data to further advance research in the field of VLMs.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)のブレークスルーは、実世界のマルチモーダルインタラクションにおいて、人間の嗜好をベンチマークする必要性を強調している。
このギャップに対処するため、私たちはVLMを評価するために人間の好みを収集するオンラインプラットフォームWildVision-Arena(WV-Arena)を立ち上げました。
We cured WV-Bench by selecting 500 high-quality sample from 8,000 user submits in WV-Arena。
WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。
これは、MMVet、MMMU、MMStarといった他のベンチマークよりも大幅に優れています。
実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。
例えば、GPT-4Vは、単純な視覚認識や推論タスクにおいて、Reka-Flash、Opus、Yi-VL-Plusといった他のモデルよりも優れているが、微妙な文脈的手がかり、空間的推論、視覚的想像力、エキスパートドメイン知識といった課題に直面している。
さらに、現在のVLMは、意図的に誘発されたときの幻覚や安全性の問題も示している。
VLMの分野でさらに研究を進めるために、チャットとフィードバックデータをリリースしています。
関連論文リスト
- Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models [82.92771279118888]
マルチモーダル報酬モデルを評価するためのエキスパートアノテートベンチマークであるMultimodal RewardBenchを紹介する。
我々のデータセットは、様々な視覚言語モデルから収集された5,211個の注釈付き(プロンプト、選択された応答、拒否された応答)三つ子からなる。
Gemini 1.5 ProやClaude 3.5 Sonnetといったトップパフォーマンスモデルでさえ、全体的な精度は72%に過ぎません。
論文 参考訳(メタデータ) (2025-02-20T01:48:13Z) - Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey [6.73328736679641]
VLM(Multimodal Vision Language Models)は、コンピュータビジョンと自然言語処理の交差点において、トランスフォーメーション技術として登場した。
VLMは、視覚的およびテキスト的データに対して強力な推論と理解能力を示し、ゼロショット分類において古典的な単一モダリティ視覚モデルを上回る。
論文 参考訳(メタデータ) (2025-01-04T04:59:33Z) - Do Multimodal Large Language Models See Like Humans? [50.938168841711445]
MLLM(Multimodal Large Language Models)は、様々なビジョンタスクにおいて、近年の大規模言語モデルの進歩を生かして、印象的な成果を上げている。
MLLMは人間と同じような視覚情報を知覚しているか?
HVSBenchは、人間の視覚を反映する基本的な視覚タスクにおいて、MLLMと人間の視覚システム(HVS)の整合性を評価するために設計された大規模なベンチマークである。
論文 参考訳(メタデータ) (2024-12-12T18:59:25Z) - VisionArena: 230K Real World User-VLM Conversations with Preference Labels [68.11192349083832]
VisionArenaは、ユーザと視覚言語モデル(VLM)間の230万の現実世界会話のデータセット
私たちのデータセットは73Kのユニークなユーザ、45のVLM、138の言語で構成されています。
キャプションやユーモアのようなオープンなタスクは非常にスタイルに依存しており、現在のVLMは空間的推論や計画タスクに苦労している。
論文 参考訳(メタデータ) (2024-12-11T18:59:46Z) - Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension [95.63899307791665]
視覚価値モデル(VisVM)は、VLM推論時間探索をガイドして、より良い視覚的理解で応答を生成する。
本稿では、VLM推論時間探索をガイドし、視覚的理解を向上した応答を生成するVisVMを提案する。
論文 参考訳(メタデータ) (2024-12-04T20:35:07Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models [20.697019266074747]
視覚言語モデル(VLM)は、視覚エンコーダと大型言語モデル(LLM)を組み合わせて世界を認識する。
近年の研究では、VLMは幻覚に弱いことが示されている。
我々は、True Understanding (TU)、IGnorance (IG)、StuBbornness (SB)、InDecision (ID)といった新しいメトリクスを紹介します。
論文 参考訳(メタデータ) (2024-07-18T12:11:12Z) - TopViewRS: Vision-Language Models as Top-View Spatial Reasoners [38.406430696146714]
トップビューの視点は、人間が様々な種類の地図を読み、推論する典型的な方法である。
11,384の質問からなるTopViewRSデータセットを視覚入力として,現実的あるいは意味的なトップビューマップで紹介する。
次に、異なるレベルの複雑さを持つ4つの知覚と推論タスクにわたるVLMの研究と評価に使用します。
論文 参考訳(メタデータ) (2024-06-04T17:55:43Z) - Prometheus-Vision: Vision-Language Model as a Judge for Fine-Grained
Evaluation [31.062433484245684]
Prometheus-Visionは,評価中のユーザ定義スコアの理解が可能な,オープンソースのVLM評価モデルである。
Prometheus-Visionは、オープンソースのモデルの中で、人間の評価器とGPT-4Vとピアソンの相関が最も高いことを示している。
論文 参考訳(メタデータ) (2024-01-12T14:19:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。