論文の概要: Understanding AI Evaluation Patterns: How Different GPT Models Assess Vision-Language Descriptions
- arxiv url: http://arxiv.org/abs/2509.10707v1
- Date: Fri, 12 Sep 2025 21:48:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.743273
- Title: Understanding AI Evaluation Patterns: How Different GPT Models Assess Vision-Language Descriptions
- Title(参考訳): AI評価パターンを理解する - GPTモデルの違いによる視覚言語記述の評価
- Authors: Sajjad Abdoli, Rudi Cilibrasi, Rima Al-Shikh,
- Abstract要約: 本研究ではNVIDIAのDescribe Anything Modelによって生成された視覚言語記述を分析する。
3種類のGPT変異体(GPT-4o, GPT-4o-mini, GPT-5)を評価し, 異なる「評価人格」を明らかにする。
GPT-4o-miniは最小分散の系統的整合性を示し、GPT-4oはエラー検出時に優れ、GPT-5は高い可変性を持つ極端保存性を示す。
- 参考スコア(独自算出の注目度): 0.4078247440919473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems increasingly evaluate other AI outputs, understanding their assessment behavior becomes crucial for preventing cascading biases. This study analyzes vision-language descriptions generated by NVIDIA's Describe Anything Model and evaluated by three GPT variants (GPT-4o, GPT-4o-mini, GPT-5) to uncover distinct "evaluation personalities" the underlying assessment strategies and biases each model demonstrates. GPT-4o-mini exhibits systematic consistency with minimal variance, GPT-4o excels at error detection, while GPT-5 shows extreme conservatism with high variability. Controlled experiments using Gemini 2.5 Pro as an independent question generator validate that these personalities are inherent model properties rather than artifacts. Cross-family analysis through semantic similarity of generated questions reveals significant divergence: GPT models cluster together with high similarity while Gemini exhibits markedly different evaluation strategies. All GPT models demonstrate a consistent 2:1 bias favoring negative assessment over positive confirmation, though this pattern appears family-specific rather than universal across AI architectures. These findings suggest that evaluation competence does not scale with general capability and that robust AI assessment requires diverse architectural perspectives.
- Abstract(参考訳): AIシステムが他のAI出力をますます評価するにつれて、その評価行動を理解することは、カスケードバイアスを防ぐために重要である。
本研究では、NVIDIAのDescribe Anything Modelによって生成された視覚言語記述を分析し、3つのGPT変種(GPT-4o, GPT-4o-mini, GPT-5)で評価し、各モデルが示す基盤となる評価戦略とバイアスを明らかにする。
GPT-4o-miniは最小分散の系統的整合性を示し、GPT-4oはエラー検出時に優れ、GPT-5は高い可変性を持つ極端保存性を示す。
Gemini 2.5 Pro を独立した質問生成器として使用した制御実験では、これらの個人性は人工物ではなく固有のモデル特性であることを検証している。
GPTモデルは高い類似性とともにクラスタリングされる一方、ジェミニは著しく異なる評価戦略を示す。
すべてのGPTモデルは、肯定的な確認よりも否定的な評価を優先する一貫性のある2:1バイアスを示している。
これらの結果から,評価能力は汎用能力に及ばず,頑健なAI評価には多様なアーキテクチャ的視点が必要であることが示唆された。
関連論文リスト
- Gemini Pro Defeated by GPT-4V: Evidence from Education [1.0226894006814744]
GPT-4Vは、スコアリング精度と四重み付きカッパの点でゲミニプロを著しく上回っている。
GPT-4Vは複雑な教育課題に対処する能力に優れていた。
論文 参考訳(メタデータ) (2023-12-27T02:56:41Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - SentimentGPT: Exploiting GPT for Advanced Sentiment Analysis and its
Departure from Current Machine Learning [5.177947445379688]
本研究は,感情分析における各種生成事前変換器(GPT)手法の徹底的な検討である。
1) 先進型GPT-3.5ターボを用いた迅速なエンジニアリング,2) 微調整型GPTモデル,3) 組込み分類への革新的アプローチの3つの戦略が採用されている。
この研究は、これらの戦略と個々のGPTモデルの間で詳細な比較洞察を与え、そのユニークな強みと潜在的な制限を明らかにしている。
論文 参考訳(メタデータ) (2023-07-16T05:33:35Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。