論文の概要: Vision-Language Model Based Handwriting Verification
- arxiv url: http://arxiv.org/abs/2407.21788v1
- Date: Wed, 31 Jul 2024 17:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 17:31:11.870626
- Title: Vision-Language Model Based Handwriting Verification
- Title(参考訳): 視覚言語モデルに基づく手書き検証
- Authors: Mihir Chauhan, Abhishek Satbhai, Mohammad Abuzar Hashemi, Mir Basheer Ali, Bina Ramamurthy, Mingchen Gao, Siwei Lyu, Sargur Srihari,
- Abstract要約: 本稿では,OpenAI の GPT-4o や Google の PaliGemma などの視覚言語モデル (VLM) を用いてこれらの課題に対処する。
私たちの目標は、モデル決定に対して明確で人間に理解可能な説明を提供することです。
- 参考スコア(独自算出の注目度): 23.983430206133793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Handwriting Verification is a critical in document forensics. Deep learning based approaches often face skepticism from forensic document examiners due to their lack of explainability and reliance on extensive training data and handcrafted features. This paper explores using Vision Language Models (VLMs), such as OpenAI's GPT-4o and Google's PaliGemma, to address these challenges. By leveraging their Visual Question Answering capabilities and 0-shot Chain-of-Thought (CoT) reasoning, our goal is to provide clear, human-understandable explanations for model decisions. Our experiments on the CEDAR handwriting dataset demonstrate that VLMs offer enhanced interpretability, reduce the need for large training datasets, and adapt better to diverse handwriting styles. However, results show that the CNN-based ResNet-18 architecture outperforms the 0-shot CoT prompt engineering approach with GPT-4o (Accuracy: 70%) and supervised fine-tuned PaliGemma (Accuracy: 71%), achieving an accuracy of 84% on the CEDAR AND dataset. These findings highlight the potential of VLMs in generating human-interpretable decisions while underscoring the need for further advancements to match the performance of specialized deep learning models.
- Abstract(参考訳): 手書き検証は、文書の法医学において重要なものである。
深層学習に基づくアプローチは、説明可能性の欠如と広範囲なトレーニングデータと手作りの特徴への依存のため、法医学的な文書検査官からの懐疑に直面することが多い。
本稿では,OpenAI の GPT-4o や Google の PaliGemma などの視覚言語モデル (VLM) を用いてこれらの課題に対処する。
Visual Question Answering機能と0-shot Chain-of-Thought (CoT)推論を活用することで、私たちの目標は、モデル決定に対して明確で人間に理解可能な説明を提供することです。
CEDAR手書きデータセットの実験は、VLMが拡張された解釈可能性を提供し、大規模なトレーニングデータセットの必要性を低減し、多様な手書きスタイルに適応できることを実証している。
しかし、CNNベースのResNet-18アーキテクチャは、GPT-4o(精度:70%)で0ショットのCoTプロンプトエンジニアリングアプローチを上回り、微調整されたPaliGemma(精度:71%)を監督し、CEDARとデータセットで84%の精度を実現している。
これらの知見は、人間の解釈可能な決定を生成する上でのVLMの可能性を強調し、専門的なディープラーニングモデルの性能に合わせたさらなる進歩の必要性を強調している。
関連論文リスト
- Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation [2.1184929769291294]
本稿では,データ視覚化における大規模言語モデルの習熟度を評価するために設計された,新しい合成データセットを提案する。
我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。
我々は、画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、いくつかの最先端モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-09-04T11:19:17Z) - GraphEval36K: Benchmarking Coding and Reasoning Capabilities of Large Language Models on Graph Datasets [19.329274124787858]
GraphEval36Kは、40のグラフコーディング問題と36,900のテストケースからなる、最初の包括的なグラフデータセットである。
我々のデータセットは8つのプライマリカテゴリと4つのサブカテゴリに分類され、異なるタイプのグラフに対する徹底的な評価が保証される。
評価フレームワークのユーザビリティ向上のために,構造化記号分解(SSD)を提案する。
SSDはGPT-4, GPT-4o, Gemini-Pro, Claude-3-Sonnetの平均通過速度を8.38%, 6.78%, 29.28%, 25.28%改善する。
論文 参考訳(メタデータ) (2024-06-23T18:01:56Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Exploring the Distinctiveness and Fidelity of the Descriptions Generated by Large Vision-Language Models [16.524244395901356]
我々は,Open-FlamingoやIDEFICS,MiniGPT-4といったモデルが類似したオブジェクトを識別し,視覚的特徴を正確に記述する方法について検討する。
テキスト検索・拡張分類(TRAC)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-26T16:59:26Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Investigating Pretrained Language Models for Graph-to-Text Generation [55.55151069694146]
Graph-to-text生成は、グラフベースのデータから流動的なテキストを生成することを目的としている。
本稿では,3つのグラフ領域,つまり表現,ウィキペディア知識グラフ(KG),科学的なKGについて検討する。
我々は, PLM の BART と T5 が新たな最先端の成果を達成し, タスク適応型事前学習戦略が性能をさらに向上することを示す。
論文 参考訳(メタデータ) (2020-07-16T16:05:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。