論文の概要: ROSA: Addressing text understanding challenges in photographs via ROtated SAmpling
- arxiv url: http://arxiv.org/abs/2506.03665v1
- Date: Wed, 04 Jun 2025 07:56:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.212454
- Title: ROSA: Addressing text understanding challenges in photographs via ROtated SAmpling
- Title(参考訳): ROSA:ROtated SAmplingによる写真におけるテキスト理解の課題への取り組み
- Authors: Hernán Maina, Guido Ivetta, Mateo Lione Stuto, Julian Martin Eisenschlos, Jorge Sánchez, Luciana Benotti,
- Abstract要約: 本稿では,誤り指向のテキストを含むテキストリッチな画像におけるVQA性能を向上させる復号戦略であるROtated SAmpling (ROSA)を紹介する。
ROSA はグレディ復号法を最高性能モデルで 11.7 の絶対点で上回っている。
- 参考スコア(独自算出の注目度): 13.513056310760605
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Visually impaired people could benefit from Visual Question Answering (VQA) systems to interpret text in their surroundings. However, current models often struggle with recognizing text in the photos taken by this population. Through in-depth interviews with visually impaired individuals, we identified common framing conventions that frequently result in misaligned text. Existing VQA benchmarks primarily feature well-oriented text captured by sighted users, under-representing these challenges. To address this gap, we introduce ROtated SAmpling (ROSA), a decoding strategy that enhances VQA performance in text-rich images with incorrectly oriented text. ROSA outperforms Greedy decoding by 11.7 absolute points in the best-performing model.
- Abstract(参考訳): 視覚障害者は、周囲のテキストを解釈する視覚質問回答システム(VQA)の恩恵を受けることができる。
しかし、現在のモデルは、この集団が撮影した写真の中のテキストを認識するのにしばしば苦労している。
視覚障害のある人との詳細なインタビューを通じて、しばしば不一致なテキストをもたらす一般的なフレーミング規則を特定した。
既存のVQAベンチマークは、主に視覚障害者によってキャプチャーされたテキストを特徴とし、これらの課題を軽視している。
このギャップに対処するため, ROtated SAmpling (ROSA) を導入する。
ROSA はグレディ復号法を最高性能モデルで 11.7 の絶対点で上回っている。
関連論文リスト
- Efficient Vision Language Model Fine-tuning for Text-based Person Anomaly Search [20.695290280579858]
本稿では,テキストベースPerson Anomaly Search(TPAS)におけるWWW 2025チャレンジに対するHFUT-LMCチームのソリューションについて述べる。
この課題の主な目的は、歩行者画像の大きな図書館内で正常または異常な行動を示す歩行者を正確に識別することである。
類似したテキスト記述による認識の難しさに対処するために、SCA(Simisity Coverage Analysis)戦略を導入する。
論文 参考訳(メタデータ) (2025-02-05T14:45:09Z) - InstructOCR: Instruction Boosting Scene Text Spotting [10.724187109801251]
InstructOCRは、革新的な命令ベースのシーンテキストスポッティングモデルである。
私たちのフレームワークは、トレーニングと推論にテキストエンコーダと画像エンコーダの両方を使用します。
広く使われているベンチマークで最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-12-20T03:23:26Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - VCR: A Task for Pixel-Level Complex Reasoning in Vision Language Models via Restoring Occluded Text [80.24176572093512]
画像内の画素レベルのヒントを用いて、部分的に隠されたテキストを正確に復元するモデルに挑戦する視覚言語タスクであるVisual Caption Restoration (VCR)を導入する。
この課題は、画像に埋め込まれたテキストは、視覚、テキスト、および画像に埋め込まれたテキストのモダリティを整合させる必要があるため、共通の視覚要素や自然言語とは本質的に異なるという観察に由来する。
論文 参考訳(メタデータ) (2024-06-10T16:58:48Z) - Look, Read and Ask: Learning to Ask Questions by Reading Text in Images [3.3972119795940525]
テキストベースの視覚的質問生成(TextVQG)の新たな問題を提案する。
テキストVQGに対処するために,OCR で一貫した視覚的質問生成モデルを提案する。
論文 参考訳(メタデータ) (2022-11-23T13:52:46Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - RUArt: A Novel Text-Centered Solution for Text-Based Visual Question
Answering [14.498144268367541]
テキストベースのVQAのためのRUArt (Reading, Understanding and Answering the Related Text) と呼ばれる新しいテキスト中心方式を提案する。
RUArtを2つのテキストベースVQAベンチマーク(ST-VQAとTextVQA)で評価し、RUArtの有効性の理由を探るため広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2020-10-24T15:37:09Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。