論文の概要: Vision-Language Model Based Handwriting Verification
- arxiv url: http://arxiv.org/abs/2407.21788v1
- Date: Wed, 31 Jul 2024 17:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 17:31:11.870626
- Title: Vision-Language Model Based Handwriting Verification
- Title(参考訳): 視覚言語モデルに基づく手書き検証
- Authors: Mihir Chauhan, Abhishek Satbhai, Mohammad Abuzar Hashemi, Mir Basheer Ali, Bina Ramamurthy, Mingchen Gao, Siwei Lyu, Sargur Srihari,
- Abstract要約: 本稿では,OpenAI の GPT-4o や Google の PaliGemma などの視覚言語モデル (VLM) を用いてこれらの課題に対処する。
私たちの目標は、モデル決定に対して明確で人間に理解可能な説明を提供することです。
- 参考スコア(独自算出の注目度): 23.983430206133793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Handwriting Verification is a critical in document forensics. Deep learning based approaches often face skepticism from forensic document examiners due to their lack of explainability and reliance on extensive training data and handcrafted features. This paper explores using Vision Language Models (VLMs), such as OpenAI's GPT-4o and Google's PaliGemma, to address these challenges. By leveraging their Visual Question Answering capabilities and 0-shot Chain-of-Thought (CoT) reasoning, our goal is to provide clear, human-understandable explanations for model decisions. Our experiments on the CEDAR handwriting dataset demonstrate that VLMs offer enhanced interpretability, reduce the need for large training datasets, and adapt better to diverse handwriting styles. However, results show that the CNN-based ResNet-18 architecture outperforms the 0-shot CoT prompt engineering approach with GPT-4o (Accuracy: 70%) and supervised fine-tuned PaliGemma (Accuracy: 71%), achieving an accuracy of 84% on the CEDAR AND dataset. These findings highlight the potential of VLMs in generating human-interpretable decisions while underscoring the need for further advancements to match the performance of specialized deep learning models.
- Abstract(参考訳): 手書き検証は、文書の法医学において重要なものである。
深層学習に基づくアプローチは、説明可能性の欠如と広範囲なトレーニングデータと手作りの特徴への依存のため、法医学的な文書検査官からの懐疑に直面することが多い。
本稿では,OpenAI の GPT-4o や Google の PaliGemma などの視覚言語モデル (VLM) を用いてこれらの課題に対処する。
Visual Question Answering機能と0-shot Chain-of-Thought (CoT)推論を活用することで、私たちの目標は、モデル決定に対して明確で人間に理解可能な説明を提供することです。
CEDAR手書きデータセットの実験は、VLMが拡張された解釈可能性を提供し、大規模なトレーニングデータセットの必要性を低減し、多様な手書きスタイルに適応できることを実証している。
しかし、CNNベースのResNet-18アーキテクチャは、GPT-4o(精度:70%)で0ショットのCoTプロンプトエンジニアリングアプローチを上回り、微調整されたPaliGemma(精度:71%)を監督し、CEDARとデータセットで84%の精度を実現している。
これらの知見は、人間の解釈可能な決定を生成する上でのVLMの可能性を強調し、専門的なディープラーニングモデルの性能に合わせたさらなる進歩の必要性を強調している。
関連論文リスト
- PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation [2.1184929769291294]
本稿では,データ視覚化における大規模言語モデルの習熟度を評価するために設計された,新しい合成データセットを提案する。
我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。
我々は、画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、いくつかの最先端モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-09-04T11:19:17Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Exploring the Distinctiveness and Fidelity of the Descriptions Generated by Large Vision-Language Models [16.524244395901356]
我々は,Open-FlamingoやIDEFICS,MiniGPT-4といったモデルが類似したオブジェクトを識別し,視覚的特徴を正確に記述する方法について検討する。
テキスト検索・拡張分類(TRAC)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-26T16:59:26Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and Specificity [45.86789047206224]
本稿では,ゼロショット認識における視覚言語モデル(VLM)の評価のための新しいベンチマークを提案する。
我々のベンチマークは、意味的粒度レベルにおける概念理解におけるVLMの一貫性と、テキストの特異性に対する応答を検証した。
発見によると、VLMは微粒な概念を適度に好み、特異性に苦しむ。
論文 参考訳(メタデータ) (2023-06-28T09:29:06Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Investigating Pretrained Language Models for Graph-to-Text Generation [55.55151069694146]
Graph-to-text生成は、グラフベースのデータから流動的なテキストを生成することを目的としている。
本稿では,3つのグラフ領域,つまり表現,ウィキペディア知識グラフ(KG),科学的なKGについて検討する。
我々は, PLM の BART と T5 が新たな最先端の成果を達成し, タスク適応型事前学習戦略が性能をさらに向上することを示す。
論文 参考訳(メタデータ) (2020-07-16T16:05:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。