論文の概要: From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis
- arxiv url: http://arxiv.org/abs/2406.19934v2
- Date: Fri, 11 Oct 2024 15:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:30:01.703046
- Title: From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis
- Title(参考訳): 最盛期から最盛期:データ合成によるプラグイン・アンド・プレイ型ビジュアル・リゾネータの構築
- Authors: Chuanqi Cheng, Jian Guan, Wei Wu, Rui Yan,
- Abstract要約: 視覚言語モデル(VLM)における多段階推論について検討する。
まず、質問のステップをサブクエストにインターリーブする、最小から最短の視覚的推論パラダイムを導入する。
画像に対する質問や多段階の推論経路を自動生成する新しいデータ合成手法を提案する。
- 参考スコア(独自算出の注目度): 38.256412418893554
- License:
- Abstract: We explore multi-step reasoning in vision-language models (VLMs). The problem is challenging, as reasoning data consisting of multiple steps of visual and language processing are barely available. To overcome the challenge, we first introduce a least-to-most visual reasoning paradigm, which interleaves steps of decomposing a question into sub-questions and invoking external tools for resolving sub-questions. Based on the paradigm, we further propose a novel data synthesis approach that can automatically create questions and multi-step reasoning paths for an image in a bottom-up manner. Our approach divides the complex synthesis task into a few simple sub-tasks, and (almost entirely) relies on open-sourced models to accomplish the sub-tasks. Therefore, the entire synthesis process is reproducible and cost-efficient, and the synthesized data is quality guaranteed. With the approach, we construct $50$k visual reasoning examples. Then, we develop a visual reasoner through supervised fine-tuning, which is capable of generally enhancing the reasoning abilities of a wide range of existing VLMs in a plug-and-play fashion. Extensive experiments indicate that the visual reasoner can consistently and significantly improve four VLMs on four VQA benchmarks. Our code and dataset are available at https://github.com/steven-ccq/VisualReasoner.
- Abstract(参考訳): 視覚言語モデル(VLM)における多段階推論について検討する。
視覚処理と言語処理の複数のステップからなる推論データがほとんど利用できないため、問題は難しい。
この課題を克服するために、我々はまず、質問をサブクエストに分解し、サブクエストを解決するための外部ツールを呼び出す、最小限の視覚的推論パラダイムを導入する。
このパラダイムに基づいて,ボトムアップ方式で質問や多段階推論経路を自動生成する新しいデータ合成手法を提案する。
このアプローチでは、複雑な合成タスクをいくつかの単純なサブタスクに分割し、(ほぼ完全に)サブタスクを達成するためにオープンソースモデルに依存します。
したがって、全合成プロセスは再現可能でコスト効率が良く、合成データの品質が保証される。
このアプローチでは、50ドルの視覚的推論の例を構築します。
そこで我々は,プラグイン・アンド・プレイ方式で既存の広範囲のVLMの推論能力を高めることができる教師付き微調整による視覚的推論器を開発した。
広汎な実験により、視覚的推論器は4つのVQAベンチマークで4つのVLMを一貫して、かつ著しく改善できることが示された。
私たちのコードとデータセットはhttps://github.com/steven-ccq/VisualReasoner.comで公開されています。
関連論文リスト
- Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。
我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Synthesize Step-by-Step: Tools, Templates and LLMs as Data Generators for Reasoning-Based Chart VQA [9.659820850719413]
我々は,推論能力の強い大規模言語モデル(LLM)を自動データアノテータとして活用する。
私たちの方法における重要な革新は、Synthesize Step-by-Step戦略にあります。
我々は、チャートVQAモデルを大幅に強化し、ChartQAおよびPlotQAデータセットの最先端の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T03:02:27Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z) - Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。
そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。
我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文 参考訳(メタデータ) (2022-12-08T06:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。