論文の概要: HAUR: Human Annotation Understanding and Recognition Through Text-Heavy Images
- arxiv url: http://arxiv.org/abs/2412.18327v1
- Date: Tue, 24 Dec 2024 10:25:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:54:56.137065
- Title: HAUR: Human Annotation Understanding and Recognition Through Text-Heavy Images
- Title(参考訳): HAUR:テキスト重画像による人間のアノテーション理解と認識
- Authors: Yuchen Yang, Haoran Yan, Yanhao Chen, Qingqiang Wu, Qingqi Hong,
- Abstract要約: 視覚質問回答(VQA)タスクは、重要な情報を伝えるために画像を使用し、テキストベースの質問に答える。
データセットとモデルも間もなくリリースされる予定です。
- 参考スコア(独自算出の注目度): 4.468589513127865
- License:
- Abstract: Vision Question Answering (VQA) tasks use images to convey critical information to answer text-based questions, which is one of the most common forms of question answering in real-world scenarios. Numerous vision-text models exist today and have performed well on certain VQA tasks. However, these models exhibit significant limitations in understanding human annotations on text-heavy images. To address this, we propose the Human Annotation Understanding and Recognition (HAUR) task. As part of this effort, we introduce the Human Annotation Understanding and Recognition-5 (HAUR-5) dataset, which encompasses five common types of human annotations. Additionally, we developed and trained our model, OCR-Mix. Through comprehensive cross-model comparisons, our results demonstrate that OCR-Mix outperforms other models in this task. Our dataset and model will be released soon .
- Abstract(参考訳): VQA(Vision Question Answering)タスクは、画像を使用して重要な情報を伝達し、テキストベースの質問に答える。
現在、多くの視覚テキストモデルが存在し、特定のVQAタスクでうまく機能している。
しかし、これらのモデルは、テキスト重画像上の人間のアノテーションを理解する上で、重大な制限を呈している。
そこで本研究では,Human Annotation Understanding and Recognition (HAUR)タスクを提案する。
この取り組みの一環として,5種類の共通アノテーションを含むHuman Annotation Understanding and Recognition-5 (HAUR-5)データセットを紹介する。
さらに,本モデルであるOCR-Mixを開発した。
本稿では,OCR-Mixが他のモデルよりも優れていることを示す。
私たちのデータセットとモデルはまもなくリリースされます。
関連論文リスト
- Are VLMs Really Blind [3.052971829873887]
ビジョン言語モデルは、幅広い複雑なタスクを扱うのに優れている。
これらのモデルは、低レベルの基本的な視覚的タスクではうまく機能しない。
本研究は,特定の質問に応答して画像からキー情報を抽出する,新しい自動パイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-29T13:20:50Z) - See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering [13.490305443938817]
我々は,新しい評価指標であるI-HallA (Image Hallucination Evaluation with Question Answering)を紹介する。
I-HallAは視覚的質問応答(VQA)を用いて生成画像の事実性を測定する
I-HallAを用いて5つのTTIモデルを評価し、これらの最先端モデルが事実情報を正確に伝達できないことを明らかにする。
論文 参考訳(メタデータ) (2024-09-19T13:51:21Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation
with Question Answering [86.38098280689027]
視覚的質問応答(VQA)を用いたテキスト入力に生成した画像の忠実度を測定する自動評価指標を導入する。
そこで本研究では,12カテゴリにわたる4Kの多様なテキスト入力と25Kの質問(オブジェクト,カウントなど)からなるベンチマークを用いて,既存のテキスト・ツー・イメージ・モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2023-03-21T14:41:02Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。