論文の概要: ChartFormer: A Large Vision Language Model for Converting Chart Images into Tactile Accessible SVGs
- arxiv url: http://arxiv.org/abs/2405.19117v1
- Date: Wed, 29 May 2024 14:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 16:51:10.489551
- Title: ChartFormer: A Large Vision Language Model for Converting Chart Images into Tactile Accessible SVGs
- Title(参考訳): ChartFormer: チャート画像を触覚アクセシブルSVGに変換するための大規模ビジョン言語モデル
- Authors: Omar Moured, Sara Alzalabny, Anas Osman, Thorsten Schwarz, Karin Muller, Rainer Stiefelhagen,
- Abstract要約: チャート解析の分野での進歩を活用して,触覚チャートをエンドツーエンドに生成する。
筆者らの3つの重要な貢献は,(1)チャート画像を触覚アクセス可能なSVGに変換するために訓練されたChartFormerモデル,(2)Chart2Tactileデータセット上でこのモデルをトレーニングし,(3)リフレッシュ可能な2次元触覚ディスプレイを用いたパイロットユーザによるSVGの有効性を評価することである。
- 参考スコア(独自算出の注目度): 20.690529354141116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visualizations, such as charts, are crucial for interpreting complex data. However, they are often provided as raster images, which are not compatible with assistive technologies for people with blindness and visual impairments, such as embossed papers or tactile displays. At the same time, creating accessible vector graphics requires a skilled sighted person and is time-intensive. In this work, we leverage advancements in the field of chart analysis to generate tactile charts in an end-to-end manner. Our three key contributions are as follows: (1) introducing the ChartFormer model trained to convert raster chart images into tactile-accessible SVGs, (2) training this model on the Chart2Tactile dataset, a synthetic chart dataset we created following accessibility standards, and (3) evaluating the effectiveness of our SVGs through a pilot user study with an refreshable two-dimensional tactile display. Our work is publicly available at https://github.com/nsothman/ChartFormer .
- Abstract(参考訳): チャートのような可視化は、複雑なデータの解釈に不可欠である。
しかし、しばしばラスタ画像として提供され、エンボス紙や触覚ディスプレイのような視覚障害者の補助技術と互換性がない。
同時に、アクセス可能なベクトルグラフィックスを作成するには、熟練した視覚障害者が必要で、時間を要する。
本研究では,チャート解析の分野における進歩を活用して,触覚チャートをエンドツーエンドに生成する。
筆者らの主な貢献は,(1)ラスターチャート画像を触覚アクセシブルなSVGに変換するために訓練されたChartFormerモデルの導入,(2)Chart2Tactileデータセット上でこのモデルをトレーニングすること,(3)アクセシビリティ標準に従って作成した合成チャートデータセット,(3)リフレッシュ可能な2次元触覚ディスプレイを用いたパイロットユーザスタディにより,SVGの有効性を評価することである。
私たちの仕事はhttps://github.com/nsothman/ChartFormerで公開されています。
関連論文リスト
- ChartKG: A Knowledge-Graph-Based Representation for Chart Images [9.781118203308438]
本稿では,グラフ画像の視覚的要素と意味的関係をモデル化可能な知識グラフ(KG)に基づくグラフ表現を提案する。
一連の画像処理技術を統合して視覚要素と関係を識別する。例えば、CNNはチャートを分類し、ヨロフ5、光学文字認識はチャートを解析する。
本稿では,知識グラフに基づく表現が,グラフの詳細な視覚的要素と意味的関係をどうモデル化できるかを示す4つの事例を示す。
論文 参考訳(メタデータ) (2024-10-13T07:38:44Z) - InstructG2I: Synthesizing Images from Multimodal Attributed Graphs [50.852150521561676]
InstructG2Iと呼ばれるグラフ文脈条件拡散モデルを提案する。
InstructG2Iはまずグラフ構造とマルチモーダル情報を利用して情報的隣人サンプリングを行う。
Graph-QFormerエンコーダは、グラフノードをグラフプロンプトの補助セットに適応的に符号化し、デノナイジングプロセスを導く。
論文 参考訳(メタデータ) (2024-10-09T17:56:15Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.643565008567172]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。
基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。
我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-07-04T22:16:40Z) - AltChart: Enhancing VLM-based Chart Summarization Through Multi-Pretext Tasks [31.414783623207477]
本稿では,AltChartデータセットについて紹介する。
本稿では,視覚言語モデル(VLM)を事前学習し,詳細なチャート表現を学習する手法を提案する。
我々は,4つの主要なチャート要約モデルの広範囲な評価を行い,それらの記述がどの程度アクセス可能かを分析した。
論文 参考訳(メタデータ) (2024-05-22T12:18:52Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z) - StructChart: Perception, Structuring, Reasoning for Visual Chart
Understanding [58.38480335579541]
現在のチャート関連タスクは、視覚チャートから情報を抽出することを参照するチャート認識か、抽出されたデータから推論を行うかに焦点を当てている。
本稿では,共同認識と推論タスクのための統一的でラベル効率のよい学習パラダイムを確立することを目的とする。
各種のチャート関連タスクで実験を行い、統合されたチャート認識推論パラダイムの有効性と有望な可能性を実証した。
論文 参考訳(メタデータ) (2023-09-20T12:51:13Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z) - Chart-to-Text: A Large-Scale Benchmark for Chart Summarization [9.647079534077472]
2つのデータセットと44,096のチャートを持つ大規模ベンチマークであるChart-to-textを提示する。
データセット構築プロセスを説明し、データセットを解析する。
論文 参考訳(メタデータ) (2022-03-12T17:01:38Z) - Font Completion and Manipulation by Cycling Between Multi-Modality
Representations [113.26243126754704]
中間表現としてグラフを用いた2次元グラフィックオブジェクトとしてフォントグリフの生成を探求する。
我々は、画像エンコーダと画像の間のグラフで、モダリティサイクルのイメージ・ツー・イメージ構造を定式化する。
本モデルでは,画像から画像までのベースラインと,それ以前のグリフ補完手法よりも改善された結果を生成する。
論文 参考訳(メタデータ) (2021-08-30T02:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。