Fugu-MT 論文翻訳(概要): SBS Figures: Pre-training Figure QA from Stage-by-Stage Synthesized Images

論文の概要: SBS Figures: Pre-training Figure QA from Stage-by-Stage Synthesized Images

arxiv url: http://arxiv.org/abs/2412.17606v1
Date: Mon, 23 Dec 2024 14:25:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:48.472397
Title: SBS Figures: Pre-training Figure QA from Stage-by-Stage Synthesized Images
Title（参考訳）: SBS図:段階別合成画像からの事前学習図QA
Authors: Risa Shinoda, Kuniaki Saito, Shohei Tanaka, Tosho Hirasawa, Yoshitaka Ushiku,
Abstract要約: SBSFigures (Stage-by-Stage Synthetic Figures, SBSFigures, SBSFigures) は、事前学習された図形QAのためのデータセットである。提案するパイプラインは、視覚化されたデータの完全なアノテーションによるチャートフィギュアの作成を可能にする。我々のSBSFiguresは、事前学習効果が強く、限られた実世界のチャートデータで効率的なトレーニングを実現することができる。
参考スコア（独自算出の注目度）: 17.070451342573744
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Building a large-scale figure QA dataset requires a considerable amount of work, from gathering and selecting figures to extracting attributes like text, numbers, and colors, and generating QAs. Although recent developments in LLMs have led to efforts to synthesize figures, most of these focus primarily on QA generation. Additionally, creating figures directly using LLMs often encounters issues such as code errors, similar-looking figures, and repetitive content in figures. To address this issue, we present SBSFigures (Stage-by-Stage Synthetic Figures), a dataset for pre-training figure QA. Our proposed pipeline enables the creation of chart figures with complete annotations of the visualized data and dense QA annotations without any manual annotation process. Our stage-by-stage pipeline makes it possible to create diverse topic and appearance figures efficiently while minimizing code errors. Our SBSFigures demonstrate a strong pre-training effect, making it possible to achieve efficient training with a limited amount of real-world chart data starting from our pre-trained weights.
Abstract（参考訳）: 大規模な図形QAデータセットの構築には、数字の収集と選択、テキスト、数字、色などの属性の抽出、QAの生成など、かなりの作業が必要になる。 LLMの最近の発展は数値の合成に繋がっているが、そのほとんどはQA生成に重点を置いている。加えて、LLMを使ってフィギュアを直接作成することは、コードエラー、類似のフィギュア、フィギュアの繰り返しコンテンツといった問題に遭遇することが多い。この問題に対処するために、事前学習された図形QAのデータセットであるSBSFigures(Stage-by-Stage Synthetic Figures)を提案する。提案するパイプラインは,手動のアノテーション処理を使わずに,視覚化されたデータと高密度なQAアノテーションの完全なアノテーションによるチャートフィギュアの作成を可能にする。当社のステージバイステージパイプラインでは,コードエラーを最小限にしつつ,さまざまなトピックや出現図を効率的に作成することが可能です。 SBSFiguresはトレーニング前の効果を強く示しており、トレーニング前の重みから始まる実世界のグラフデータを限られた量で効率的にトレーニングすることが可能である。

関連論文リスト

Bootstrapping Grounded Chain-of-Thought in Multimodal LLMs for Data-Efficient Model Adaptation [25.283739839182147]
MLLMをChain-of-Thought(CoT)推論データでトレーニングすることで、特殊な視覚タスクにおけるモデル適応が容易になることを示す。我々は,CoTデータに接地情報を注入することを目的とした,単純なブートストラップに基づくアプローチであるグラウンドド・チェーン・オブ・ワット(GCoT)を提案する。様々な視覚形式をカバーする5つの視覚タスクに対するアプローチの評価を行った。
論文参考訳（メタデータ） (2025-07-03T17:59:29Z)
Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-11-26T18:38:38Z)
Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文参考訳（メタデータ） (2024-07-29T17:04:34Z)
On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文参考訳（メタデータ） (2024-07-19T17:58:36Z)
Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language [41.40908753726324]
拡散モデルは現実的で多様な画像を生成することができ、データ集約的な知覚タスクのためのデータ可用性を促進する可能性がある。高品質なクロスモダリティトレーニングサンプルを生成する新しいフレームワークであるtextbfAuto textbfCherry-textbfPicker (ACP) を提案する。
論文参考訳（メタデータ） (2024-06-28T17:53:18Z)
ALPS: An Auto-Labeling and Pre-training Scheme for Remote Sensing Segmentation With Segment Anything Model [32.91528641298171]
ALPS (Automatic Labeling for Pre-training in Pre-training in Remote Sensing) という,革新的な自動ラベリングフレームワークを導入する。我々はSegment Anything Model(SAM)を利用して、事前のアノテーションや追加のプロンプトを必要とせずに、RS画像の正確な擬似ラベルを予測する。提案手法は,iSAIDやISPRS Potsdamなど,様々なベンチマークにおけるダウンストリームタスクの性能を向上させる。
論文参考訳（メタデータ） (2024-06-16T09:02:01Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文参考訳（メタデータ） (2023-06-15T17:59:51Z)
COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文参考訳（メタデータ） (2023-06-15T12:29:42Z)
SEPT: Towards Scalable and Efficient Visual Pre-Training [11.345844145289524]
自己教師付き事前トレーニングは、ダウンストリームタスクのパフォーマンスを改善するために大規模なラベルなしデータを活用する大きな可能性を示している。タスク固有の自己教師型事前学習フレームワークを構築し,対象タスクに類似した分布を持つ未ラベルサンプルの事前学習が,大幅な性能向上をもたらすという単純な仮説に基づいて構築する。
論文参考訳（メタデータ） (2022-12-11T11:02:11Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。