論文の概要: FLIP Reasoning Challenge
- arxiv url: http://arxiv.org/abs/2504.12256v1
- Date: Wed, 16 Apr 2025 17:07:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:40:50.352249
- Title: FLIP Reasoning Challenge
- Title(参考訳): FLIP推論チャレンジ
- Authors: Andreas Plesner, Turlan Kuzhagaliyev, Roger Wattenhofer,
- Abstract要約: 本稿では,人間の検証タスクに基づいてAI推論能力を評価するためのベンチマークであるFLIPデータセットを紹介する。
FLIPの課題は、4つのイメージの2つの順序をユーザに提供することだ。
我々の実験は、視覚言語モデル(VLM)と大規模言語モデル(LLM)の両方を活用して、最先端のモデルを評価する。
- 参考スコア(独自算出の注目度): 20.706469085872516
- License:
- Abstract: Over the past years, advances in artificial intelligence (AI) have demonstrated how AI can solve many perception and generation tasks, such as image classification and text writing, yet reasoning remains a challenge. This paper introduces the FLIP dataset, a benchmark for evaluating AI reasoning capabilities based on human verification tasks on the Idena blockchain. FLIP challenges present users with two orderings of 4 images, requiring them to identify the logically coherent one. By emphasizing sequential reasoning, visual storytelling, and common sense, FLIP provides a unique testbed for multimodal AI systems. Our experiments evaluate state-of-the-art models, leveraging both vision-language models (VLMs) and large language models (LLMs). Results reveal that even the best open-sourced and closed-sourced models achieve maximum accuracies of 75.5% and 77.9%, respectively, in zero-shot settings, compared to human performance of 95.3%. Captioning models aid reasoning models by providing text descriptions of images, yielding better results than when using the raw images directly, 69.6% vs. 75.2% for Gemini 1.5 Pro. Combining the predictions from 15 models in an ensemble increases the accuracy to 85.2%. These findings highlight the limitations of existing reasoning models and the need for robust multimodal benchmarks like FLIP. The full codebase and dataset will be available at https://github.com/aplesner/FLIP-Reasoning-Challenge.
- Abstract(参考訳): 過去数年間、人工知能(AI)の進歩は、画像分類やテキスト作成など、AIが多くの知覚と生成タスクをいかに解決できるかを実証してきたが、推論は依然として課題である。
本稿では、Idenaブロックチェーン上の人間の検証タスクに基づいてAI推論能力を評価するためのベンチマークであるFLIPデータセットを紹介する。
FLIPの課題は、4つのイメージの2つの順序をユーザに提供することであり、論理的に一貫性のあるものを特定する必要がある。
シーケンシャルな推論、ビジュアルなストーリーテリング、常識を強調することで、FLIPはマルチモーダルAIシステムのためのユニークなテストベッドを提供する。
実験では,視覚言語モデル (VLM) と大規模言語モデル (LLM) を併用して,最先端モデルの評価を行った。
その結果、最高のオープンソースモデルとクローズドソースモデルでさえ、ゼロショット設定でそれぞれ75.5%と77.9%のアキュラシーを達成でき、人間のパフォーマンスは95.3%であることがわかった。
キャプションモデルは画像のテキスト記述を提供することで推論モデルを支援し、Gemini 1.5 Proでは69.6%対75.2%である。
アンサンブルで15モデルからの予測を組み合わせると、精度は85.2%に向上する。
これらの結果は既存の推論モデルの限界とFLIPのような堅牢なマルチモーダルベンチマークの必要性を浮き彫りにしている。
完全なコードベースとデータセットはhttps://github.com/aplesner/FLIP-Reasoning-Challengeで提供される。
関連論文リスト
- D-Judge: How Far Are We? Evaluating the Discrepancies Between AI-synthesized Images and Natural Images through Multimodal Guidance [19.760989919485894]
AI-Natural Image Discrepancy accessing benchmark(textitD-Judge)を導入する。
我々は、テキスト・トゥ・イメージ(T2I)、画像・トゥ・イメージ(I2I)、テキスト・アンド・イメージ(TI2I)プロンプトを用いて、5000の自然画像と4万以上のAIGIを9つのモデルで生成したデータセットであるtextitD-ANIを構築した。
本フレームワークは, 画像品質, セマンティックアライメント, 美的魅力, 下流適用性, 人間の検証の5次元にわたる相違性を評価する。
論文 参考訳(メタデータ) (2024-12-23T15:08:08Z) - FIDAVL: Fake Image Detection and Attribution using Vision-Language Model [14.448350657613368]
FIDAVLは、視覚と言語処理の相乗効果に触発された、新規で効率的なマルチタスクアプローチである。
視覚と言語間の相補性と、偽画像を検出するソフトなプロンプトチューニング戦略を利用する。
FIDAVLの平均検出精度は95.42%、F1スコアは95.47%である。
論文 参考訳(メタデータ) (2024-08-22T15:41:56Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - AIGCOIQA2024: Perceptual Quality Assessment of AI Generated Omnidirectional Images [70.42666704072964]
我々はAI生成の全方位画像IQAデータベースAIIGCOIQA2024を構築した。
3つの視点から人間の視覚的嗜好を評価するために、主観的IQA実験を行った。
我々は,データベース上での最先端IQAモデルの性能を評価するためのベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-04-01T10:08:23Z) - Is my Data in your AI Model? Membership Inference Test with Application to Face Images [18.402616111394842]
この記事では、AI/MLモデルのトレーニング中に与えられたデータが使用されているかどうかを経験的に評価することを目的とした新しいアプローチである、メンバシップ推論テスト(MINT)を紹介します。
本稿では,学習過程に使用されるデータに監査モデルが露出した場合に現れるアクティベーションパターンを学習するための2つのMINTアーキテクチャを提案する。
実験は6つの公開データベースを使って行われ、合計で2200万以上の顔画像で構成されている。
論文 参考訳(メタデータ) (2024-02-14T15:09:01Z) - Pushing Boundaries: Exploring Zero Shot Object Classification with Large
Multimodal Models [0.09264362806173355]
LLVA(Large Language and Vision Assistant Model)は、画像ベースのクエリと連動したリッチな会話体験をユーザに提供するモデルである。
本稿では,LMMについて一意に考察し,画像分類タスクの適応性について検討する。
我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。
論文 参考訳(メタデータ) (2023-12-30T03:19:54Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - Uncertainty in AI: Evaluating Deep Neural Networks on
Out-of-Distribution Images [0.0]
本稿では、摂動データを扱う際に、ResNet-50、VGG16、DenseNet121、AlexNet、GoogleNetなど様々なディープニューラルネットワークの不確実性について検討する。
ResNet-50はOODイメージの最も正確なシングルモデルであったが、アンサンブルはより良く、すべてのイメージを正しく分類した。
論文 参考訳(メタデータ) (2023-09-04T22:46:59Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。