論文の概要: TactileEval: A Step Towards Automated Fine-Grained Evaluation and Editing of Tactile Graphics
- arxiv url: http://arxiv.org/abs/2604.19829v1
- Date: Mon, 20 Apr 2026 21:51:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.572405
- Title: TactileEval: A Step Towards Automated Fine-Grained Evaluation and Editing of Tactile Graphics
- Title(参考訳): TactileEval: 触覚グラフィックの自動評価と編集に向けたステップ
- Authors: Adnan Khan, Abbas Akkasi, Majid Komeili,
- Abstract要約: 触覚グラフィックスは、視覚障害者(BVI)の学習者に到達する前に、慎重に専門家による検証を必要とする。
既存のデータセットは、動作可能な修復信号を提供しない粗い全体的な品質評価のみを提供する。
私たちは、このプロセスを自動化するための第一歩を踏み出した3段階のパイプラインであるTactileEvalを紹介します。
- 参考スコア(独自算出の注目度): 2.9567293946666173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tactile graphics require careful expert validation before reaching blind and visually impaired (BVI) learners, yet existing datasets provide only coarse holistic quality ratings that offer no actionable repair signal. We present TactileEval, a three-stage pipeline that takes a first step toward automating this process. Drawing on expert free-text comments from the TactileNet dataset, we establish a five-category quality taxonomy; encompassing view angle, part completeness, background clutter, texture separation, and line quality aligned with BANA standards. We subsequently gathered 14,095 structured annotations via Amazon Mechanical Turk, spanning 66 object classes organized into six distinct families. A reproducible ViT-L/14 feature probe trained on this data achieves 85.70% overall test accuracy across 30 different tasks, with consistent difficulty ordering suggesting the taxonomy suggesting the taxonomy captures meaningful perceptual structure. Building on these evaluations, we present a ViT-guided automated editing pipeline that routes classifier scores through family-specific prompt templates to produce targeted corrections via gpt-image-1 image editing. Code, data, and models are available at https://TactileEval.github.io/
- Abstract(参考訳): 触覚グラフィックスは、視覚障害者(BVI)の学習者に到達する前に、慎重に専門家による検証を必要とするが、既存のデータセットは粗い全体的な品質評価のみを提供し、実用的な修復信号を提供しない。
私たちは、このプロセスを自動化するための第一歩を踏み出した3段階のパイプラインであるTactileEvalを紹介します。
TactileNetデータセットからの専門的なフリーテキストコメントに基づいて、ビューアングル、部分完全性、バックグラウンドクラッタ、テクスチャ分離、BANA標準に準拠したライン品質を含む5カテゴリのクオリティ分類を確立します。
その後、Amazon Mechanical Turkを通じて14,095の構造化アノテーションを収集し、66のオブジェクトクラスを6つの異なるファミリーに分けました。
このデータに基づいて訓練された再現可能なViT-L/14機能プローブは、30の異なるタスクで85.70%の総合的なテスト精度を達成する。
これらの評価に基づいて、分類器のスコアを家族固有のプロンプトテンプレートを通してルーティングし、gpt-image-1画像編集による目標修正を生成するViT誘導自動編集パイプラインを提案する。
コード、データ、モデルはhttps://TactileEval.github.io/で入手できる。
関連論文リスト
- MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale [92.09717763663873]
我々は、データエンジニアリングとトレーニング戦略設計を通じて、純粋に最先端の技術を進化させるMinerU2.5-Proを提案する。
コアとなるのは、カバレッジ、情報性、アノテーションの正確性を中心に設計されたData Engineだ。
我々は,MinerU2.5-Pro が OmniDocBench v1.6 上で 95.69 を達成することを示す。
論文 参考訳(メタデータ) (2026-04-06T15:44:18Z) - VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents [1.06378109904813]
VAREXは政府形態からの構造化データ抽出を評価するためのベンチマークである。
ベンチマークは、1,777の文書と1,771のユニークな文書から成っており、3相品質保証を通じて真理を検証している。
結果は、4Bパラメータ以下では、コンプライアンス出力 -- 抽出能力ではなく -- が主要なボトルネックであることを示している。
論文 参考訳(メタデータ) (2026-03-16T11:15:56Z) - Automated Parsing of Engineering Drawings for Structured Information Extraction Using a Fine-tuned Document Understanding Transformer [0.352650106994433]
本稿では,構造化情報抽出のためのハイブリッドディープラーニングフレームワークを提案する。
オブジェクト指向バウンディングボックス(OBB)モデルと変換器ベースの文書解析モデル(Donut)を統合する。
提案するフレームワークは、精度を改善し、手作業の労力を削減するとともに、精度駆動型産業におけるスケーラブルなデプロイメントをサポートする。
論文 参考訳(メタデータ) (2025-05-02T18:33:21Z) - Vision-Language Models are Strong Noisy Label Detectors [76.07846780815794]
本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
論文 参考訳(メタデータ) (2024-09-29T12:55:17Z) - Telling Left from Right: Identifying Geometry-Aware Semantic Correspondence [80.6840060272386]
本稿では,意味的対応のための幾何学的認識の重要性を明らかにする。
この情報を活用することで,意味的対応性能が著しく向上することを示す。
提案手法は,SPair-71kデータセット上で,65.4(ゼロショット)と85.6(教師)のPCK@0.10スコアを達成する。
論文 参考訳(メタデータ) (2023-11-28T18:45:13Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - Open Aspect Target Sentiment Classification with Natural Language
Prompts [1.9491825010518626]
自然言語のプロンプトでATSCを解くための簡単な手法を提案する。
SemEval 2014 Task 4ラップトップドメインのいくつかの設定では、NLIタスクとしてATSCを再構成する方法は、最大24.13の精度ポイントと33.14のマクロF1ポイントで教師付きSOTAアプローチより優れている。
論文 参考訳(メタデータ) (2021-09-08T14:38:52Z) - SOLD2: Self-supervised Occlusion-aware Line Description and Detection [95.8719432775724]
単一深層ネットワークにおける回線セグメントの最初の共同検出と記述について紹介します。
我々の手法は注釈付き行ラベルを必要としないため、任意のデータセットに一般化することができる。
複数のマルチビューデータセットにおいて,従来の行検出と記述方法に対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-04-07T19:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。