論文の概要: Evaluation of GPT-4o & GPT-4o-mini's Vision Capabilities for Salt Evaporite Identification
- arxiv url: http://arxiv.org/abs/2412.10587v1
- Date: Fri, 13 Dec 2024 22:02:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 15:49:59.697352
- Title: Evaluation of GPT-4o & GPT-4o-mini's Vision Capabilities for Salt Evaporite Identification
- Title(参考訳): GPT-4oとGPT-4o-miniの塩気化物識別機能の評価
- Authors: Deven B. Dangi, Beni B. Dangi, Oliver Steinbock,
- Abstract要約: 本稿では, 染色画像から塩分を同定する手法として, OpenAI の視覚モデル (GPT-4o と GPT-4o-mini) の可能性について検討する。
GPT-4o モデルは 57% の精度と 0.52 F1 のスコアを達成し、ランダムチャンス (8%) と GPT-4o mini (1% の精度) の両方を著しく上回った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Identifying salts from images of their 'stains' has diverse practical applications. While specialized AI models are being developed, this paper explores the potential of OpenAI's state-of-the-art vision models (GPT-4o and GPT-4o-mini) as an immediate solution. Testing with 12 different types of salts, the GPT-4o model achieved 57% accuracy and a 0.52 F1 score, significantly outperforming both random chance (8%) and GPT-4o mini (11% accuracy). Results suggest that current vision models could serve as an interim solution for salt identification from stain images.
- Abstract(参考訳): その「土」の画像から塩を同定することは、様々な応用がある。
専門的なAIモデルが開発されているが,本論文では,OpenAIの最先端ビジョンモデル(GPT-4oとGPT-4o-mini)が即時解である可能性について検討する。
12種類の塩を試験したところ、GPT-4oモデルは57%の精度と0.52 F1のスコアを達成し、ランダムな確率(8%)とGPT-4o mini(11%の精度)を著しく上回った。
その結果、現在の視覚モデルは、染色画像から塩分を識別するための中間解として機能する可能性が示唆された。
関連論文リスト
- Plant Disease Detection through Multimodal Large Language Models and Convolutional Neural Networks [0.5009853409756729]
本研究では,多モーダル大規模言語モデル(LLM)と畳み込みニューラルネットワーク(CNN)を併用した葉のイメージを用いた植物病の自動分類の有効性について検討した。
ゼロショット,少数ショット,プログレッシブ微調整シナリオのモデル性能を評価する。
論文 参考訳(メタデータ) (2025-04-29T04:31:58Z) - Antidistillation Sampling [98.87756003405627]
拡張推論トレースを生成するモデルは、モデル蒸留を容易にするリッチトークンシーケンスを不注意に生成する。
この脆弱性を認識したモデル所有者は、モデル性能を損なうことなく蒸留の有効性を制限するサンプリング戦略を求めることができる。
抗蒸留サンプリングは、モデルの実用性を保ちながら、蒸留に著しく効果の低い推理トレースをレンダリングする。
論文 参考訳(メタデータ) (2025-04-17T17:54:14Z) - Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models [21.46605047406198]
Diffusion-4Kはテキストと画像の拡散モデルを用いた直接超高解像度画像合成のための新しいフレームワークである。
超高解像度画像生成のための総合ベンチマークであるAesthetic-4Kを構築した。
様々な潜伏拡散モデルに適用可能な4K画像を用いた直接訓練のためのウェーブレットに基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-03-24T05:25:07Z) - Beyond Negation Detection: Comprehensive Assertion Detection Models for Clinical NLP [5.297964922424743]
我々は最先端のアサーション検出モデルを開発する。
我々はこれらのモデルを,クラウドベースの商用APIソリューション,レガシルールベースのNegExアプローチ,GPT-4oに対して評価する。
論文 参考訳(メタデータ) (2025-03-21T10:18:47Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Interpretable Droplet Digital PCR Assay for Trustworthy Molecular Diagnostics [6.936364565330349]
I2ddPCRは、GPT-4o Multimodal Large Language Model (MLLM)とフロントエンド予測モデル(ドロップレットのセグメンテーションと分類のための)を統合する包括的なフレームワークである。
このアプローチは最先端モデルを超え、信号-雑音比(SNR)の異なる複雑なddPCR画像を99.05%の精度で処理できる。
論文 参考訳(メタデータ) (2025-01-16T00:33:17Z) - Can GPT-4 Models Detect Misleading Visualizations? [12.463821332962528]
GPT-4モデルは、事前トレーニングをすることなく、適度な精度で誤解を招く可視化を検出することができる。
モデルにミスリーダーの定義と例を提供することは、ミスリーダーを推論するのにより効果的である。
本研究は、視覚的誤報を検出するために、大きな視覚言語モデルを使用することの可能性を明らかにする。
論文 参考訳(メタデータ) (2024-08-08T22:51:02Z) - SCott: Accelerating Diffusion Models with Stochastic Consistency Distillation [74.32186107058382]
本稿では,テキスト・画像の高速生成を実現するために,SCott(Consistency Distillation)を提案する。
SCottは、訓練済みの教師モデルの通常の微分方程式解法に基づくサンプリングプロセスを学生に蒸留する。
安定拡散V1.5教師によるMSCOCO-2017 5Kデータセットでは、SCottは2ステップのサンプリングステップを持つ21.9のFIDを達成し、1ステップのInstaFlow (23.4)と4ステップのUFOGen (22.1)を上回ります。
論文 参考訳(メタデータ) (2024-03-03T13:08:32Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Generation, Distillation and Evaluation of Motivational
Interviewing-Style Reflections with a Foundational Language Model [2.33956825429387]
本稿では,基礎言語モデルからより小さなモデルへの反射の発生を蒸留する方法を提案する。
まず、ゼロショットプロンプトを用いたGPT-4は、ほぼ100%の成功率で反射を生成できることを示す。
また, 蒸留モデルの品質評価において, GPT-4は労働集約的な作業に有効であることを示す。
論文 参考訳(メタデータ) (2024-02-01T22:54:31Z) - Gemini Pro Defeated by GPT-4V: Evidence from Education [1.0226894006814744]
GPT-4Vは、スコアリング精度と四重み付きカッパの点でゲミニプロを著しく上回っている。
GPT-4Vは複雑な教育課題に対処する能力に優れていた。
論文 参考訳(メタデータ) (2023-12-27T02:56:41Z) - Image and Data Mining in Reticular Chemistry Using GPT-4V [5.440238820637818]
GPT-4Vは、ChatGPTまたはAPIを通じてアクセス可能な、拡張された視覚機能を備えた大きな言語モデルである。
本研究は,GPT-4Vが金属-有機化合物の複雑なデータをナビゲートし,得ることができることを示す。
論文 参考訳(メタデータ) (2023-12-09T05:05:25Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - NERIF: GPT-4V for Automatic Scoring of Drawn Models [0.6278186810520364]
最近リリースされたGPT-4Vは、科学的モデリングの実践を前進させるユニークな機会を提供する。
我々は,GPT-4Vに学生の描画モデルを評価するための指導音とルーブリックを用いた手法を開発した。
GPT-4Vのスコアを人間の専門家のスコアと比較し、スコアの精度を計算した。
論文 参考訳(メタデータ) (2023-11-21T20:52:04Z) - Holistic Evaluation of GPT-4V for Biomedical Imaging [113.46226609088194]
GPT-4Vはコンピュータビジョンのための人工知能の突破口である。
GPT-4Vは,放射線学,腫瘍学,眼科,病理学など16分野にまたがって評価を行った。
以上の結果より,GPT-4Vは異常や解剖学的認識に優れていたが,診断や局所化は困難であった。
論文 参考訳(メタデータ) (2023-11-10T18:40:44Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - Unassisted Noise Reduction of Chemical Reaction Data Sets [59.127921057012564]
本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
論文 参考訳(メタデータ) (2021-02-02T09:34:34Z) - Improved Techniques for Training Score-Based Generative Models [104.20217659157701]
本研究では,高次元空間におけるスコアモデルからの学習とサンプリングに関する新しい理論的解析を行う。
スコアベースの生成モデルを前例のない解像度で画像に拡張することができる。
我々のスコアベースモデルは、様々な画像データセットで最良クラスGANに匹敵する高忠実度サンプルを生成することができる。
論文 参考訳(メタデータ) (2020-06-16T09:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。