論文の概要: ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding
- arxiv url: http://arxiv.org/abs/2501.05452v1
- Date: Thu, 09 Jan 2025 18:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 14:00:36.444070
- Title: ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding
- Title(参考訳): ReFocus: 構造化画像理解のための思考のチェーンとしてのビジュアル編集
- Authors: Xingyu Fu, Minqian Liu, Zhengyuan Yang, John Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, Cha Zhang,
- Abstract要約: マルチモーダルな大言語モデル(LLM)には、このマルチホップ選択的な注意力がない。
マルチモーダル LLM に "視覚的思考" を生成する能力を備えた,シンプルで効果的なフレームワーク ReFocus を紹介する。
具体的には、ReFocusはマルチモーダルLLMでPythonコードを生成し、ツールを呼び出し、入力イメージを変更し、ボックスを逐次描画し、セクションをハイライトし、エリアをマスキングすることを可能にする。
- 参考スコア(独自算出の注目度): 84.98613346398656
- License:
- Abstract: Structured image understanding, such as interpreting tables and charts, requires strategically refocusing across various structures and texts within an image, forming a reasoning sequence to arrive at the final answer. However, current multimodal large language models (LLMs) lack this multihop selective attention capability. In this work, we introduce ReFocus, a simple yet effective framework that equips multimodal LLMs with the ability to generate "visual thoughts" by performing visual editing on the input image through code, shifting and refining their visual focuses. Specifically, ReFocus enables multimodal LLMs to generate Python codes to call tools and modify the input image, sequentially drawing boxes, highlighting sections, and masking out areas, thereby enhancing the visual reasoning process. We experiment upon a wide range of structured image understanding tasks involving tables and charts. ReFocus largely improves performance on all tasks over GPT-4o without visual editing, yielding an average gain of 11.0% on table tasks and 6.8% on chart tasks. We present an in-depth analysis of the effects of different visual edits, and reasons why ReFocus can improve the performance without introducing additional information. Further, we collect a 14k training set using ReFocus, and prove that such visual chain-of-thought with intermediate information offers a better supervision than standard VQA data, reaching a 8.0% average gain over the same model trained with QA pairs and 2.6% over CoT.
- Abstract(参考訳): 表やチャートの解釈のような構造的イメージ理解は、画像内の様々な構造やテキストを戦略的に再焦点し、最終的な答えに到達するための推論シーケンスを形成する必要がある。
しかし、現在のマルチモーダル大言語モデル(LLM)には、このマルチホップ選択的な注意力がない。
本研究では,マルチモーダル LLM にコードによる入力画像の視覚的編集を行い,視覚的焦点のシフトと修正を行うことで,視覚的思考を生成できる,シンプルで効果的なフレームワーク ReFocus を紹介する。
具体的には、ReFocusはマルチモーダルLLMでPythonコードを生成して、ツールを呼び出し、入力イメージを変更し、ボックスを逐次描画し、セクションをハイライトし、領域をマスキングし、視覚的推論プロセスを強化する。
我々は,表やチャートを含む幅広い構造化画像理解タスクを実験する。
ReFocusは視覚的な編集なしでGPT-4o上の全てのタスクのパフォーマンスを大幅に改善し、テーブルタスクでは平均11.0%、チャートタスクでは6.8%向上した。
本稿では、異なる視覚的編集の効果を詳細に分析し、ReFocusが追加情報を導入することなく性能を向上できる理由について述べる。
さらに、ReFocusを用いて14kのトレーニングセットを収集し、中間情報を用いた視覚的連鎖が標準VQAデータよりも優れた監視を提供することを証明し、QAペアでトレーニングされた同じモデルに対して平均8.0%、CoTで2.6%のゲインを達成した。
関連論文リスト
- Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。
我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-09-25T17:59:13Z) - Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document [60.01330653769726]
テキスト中心タスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。
ゼロ初期化によるシフトウィンドウアテンションの導入により、高い入力解像度でクロスウィンドウ接続を実現する。
テキストスポッティングとグラウンド化を包含する能力を拡張し、位置情報を応答に組み込むことで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-03-07T13:16:24Z) - CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Exploring Part-Informed Visual-Language Learning for Person
Re-Identification [40.725052076983516]
本稿では,視覚に基づく人物再識別作業において,部分的インフォームド言語による細粒度視覚的特徴の強化を提案する。
当社の$pi$-VLは、4つの一般的なReIDベンチマークで過去の最先端よりも大幅に改善されています。
論文 参考訳(メタデータ) (2023-08-04T23:13:49Z) - VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。
VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文 参考訳(メタデータ) (2022-08-19T14:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。