論文の概要: Grounded Intuition of GPT-Vision's Abilities with Scientific Images
- arxiv url: http://arxiv.org/abs/2311.02069v1
- Date: Fri, 3 Nov 2023 17:53:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 13:20:55.887660
- Title: Grounded Intuition of GPT-Vision's Abilities with Scientific Images
- Title(参考訳): 科学的画像を用いたGPT-Vision能力の接地的直観
- Authors: Alyssa Hwang, Andrew Head, Chris Callison-Burch
- Abstract要約: 我々は、GPT-Visionの「接地された直観」を開発するために、多くの人が直感的に試みてきた過程を定式化する。
本稿では,GPT-Visionが特にプロンプトに敏感であることを示す。
我々の手法と分析は、GPT-Visionがいかにして情報にアクセスしやすくできるかを明らかにしながら、研究者が新しいモデルの基盤となる直感を高めるのに役立つことを目的としている。
- 参考スコア(独自算出の注目度): 44.44139684561664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPT-Vision has impressed us on a range of vision-language tasks, but it comes
with the familiar new challenge: we have little idea of its capabilities and
limitations. In our study, we formalize a process that many have instinctively
been trying already to develop "grounded intuition" of this new model. Inspired
by the recent movement away from benchmarking in favor of example-driven
qualitative evaluation, we draw upon grounded theory and thematic analysis in
social science and human-computer interaction to establish a rigorous framework
for qualitative evaluation in natural language processing. We use our technique
to examine alt text generation for scientific figures, finding that GPT-Vision
is particularly sensitive to prompting, counterfactual text in images, and
relative spatial relationships. Our method and analysis aim to help researchers
ramp up their own grounded intuitions of new models while exposing how
GPT-Vision can be applied to make information more accessible.
- Abstract(参考訳): GPT-Visionは、さまざまな視覚言語タスクに感銘を受けていますが、慣れ親しんだ新しい課題があります。
本研究では,この新モデルの「接地的直観」を本能的に開発しようとしている過程を定式化する。
近年のベンチマークから先駆的な質的評価に着想を得て,社会科学と人間とコンピュータの相互作用における接地理論と主題分析を行い,自然言語処理における質的評価の厳格な枠組みを確立した。
本手法は,科学図形のaltテキスト生成を検証し,gpt-visionが画像のプロンプト,偽テキスト,相対的空間的関係に特に敏感であることを見出した。
我々の手法と分析は、GPT-Visionがいかにして情報にアクセスしやすくできるかを明らかにしながら、研究者が新しいモデルの基盤となる直感を高めるのに役立つことを目的としている。
関連論文リスト
- Assessing the Aesthetic Evaluation Capabilities of GPT-4 with Vision:
Insights from Group and Individual Assessments [2.539875353011627]
本研究は,画像の美的評価課題に対するビジョン付きGPT-4の性能について検討する。
我々は,グループの平均評価値と個人の評価値の予測という2つのタスクを採用する。
GPT-4は美的評価の予測に優れた性能を示し,美容と美容に対する異なる反応の性質を示した。
論文 参考訳(メタデータ) (2024-03-06T10:27:09Z) - Towards Graph Foundation Models: A Survey and Beyond [68.35562541338865]
ファンデーションモデルは、さまざまな人工知能アプリケーションにおいて重要なコンポーネントとして現れてきた。
基礎モデルがグラフ機械学習研究者を一般化し、適応させる能力は、新しいグラフ学習パラダイムを開発する可能性について議論する。
本稿では,グラフ基礎モデル(GFM)の概念を紹介し,その重要な特徴と基礎技術について概説する。
論文 参考訳(メタデータ) (2023-10-18T09:31:21Z) - Multimodal Deep Learning for Scientific Imaging Interpretation [0.0]
本研究では,SEM(Scanning Electron Microscopy)画像と人間のような相互作用を言語的にエミュレートし,評価するための新しい手法を提案する。
本稿では,ピアレビュー記事から収集したテキストデータとビジュアルデータの両方から洞察を抽出する。
我々のモデル (GlassLLaVA) は, 正確な解釈, 重要な特徴の同定, 未確認のSEM画像の欠陥の検出に優れる。
論文 参考訳(メタデータ) (2023-09-21T20:09:22Z) - Schema-Driven Actionable Insight Generation and Smart Recommendation [0.38673630752805443]
本稿では、データから実行可能な洞察を生成し、成長と変化を促進するためのスキーマ駆動方式を提案する。
また、フィードバックに基づいてユーザーの関心に合わせた洞察をランク付けする手法も導入している。
論文 参考訳(メタデータ) (2023-07-24T23:53:13Z) - SciMON: Scientific Inspiration Machines Optimized for Novelty [74.78803157606083]
文献に基づく新たな科学的方向を生成するために,ニューラルランゲージモデルを探索し,拡張する。
モデルが入力背景コンテキストとして使用される新しい設定で、劇的な出発をとっています。
本稿では,過去の科学的論文から「吸入」を抽出するモデリングフレームワークであるSciMONを紹介する。
論文 参考訳(メタデータ) (2023-05-23T17:12:08Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Image Quality Assessment in the Modern Age [53.19271326110551]
本チュートリアルは、画像品質評価(IQA)の基礎的理論、方法論、現状の進歩を聴衆に提供する。
まず,視覚刺激を適切に選択する方法に着目し,主観的品質評価手法を再考する。
手書きのエンジニアリングと(深い)学習ベースの手法の両方をカバーします。
論文 参考訳(メタデータ) (2021-10-19T02:38:46Z) - Visual Probing: Cognitive Framework for Explaining Self-Supervised Image
Representations [12.485001250777248]
近年,画像表現学習のための自己教師付き手法が,完全教師付き競技者に対して,同等以上の結果を提供するようになった。
そこで本研究では,自己教師型モデルを説明するための新しい視覚探索フレームワークを提案する。
自己指導型表現の文脈において,これらのアナログの有効性と適用性を示す。
論文 参考訳(メタデータ) (2021-06-21T12:40:31Z) - Adversarial Text-to-Image Synthesis: A Review [7.593633267653624]
我々は,5年前に始まった対人テキスト・画像合成モデルの状況,その発展を文脈的に把握し,その監督レベルに基づく分類法を提案する。
我々は,より優れたデータセットや評価指標の開発から,アーキテクチャ設計やモデルトレーニングの改善の可能性に至るまで,テキスト・ツー・イメージ合成モデルの評価,欠点の強調,新たな研究領域の特定に向けた現在の戦略を批判的に検討する。
本総説は, テキストと画像の合成に焦点をあてた, 生成的敵ネットワークに関する過去の調査を補完するものである。
論文 参考訳(メタデータ) (2021-01-25T09:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。