論文の概要: Self-Imagine: Effective Unimodal Reasoning with Multimodal Models using
Self-Imagination
- arxiv url: http://arxiv.org/abs/2401.08025v1
- Date: Tue, 16 Jan 2024 00:46:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 15:38:49.437427
- Title: Self-Imagine: Effective Unimodal Reasoning with Multimodal Models using
Self-Imagination
- Title(参考訳): 自己イメージを用いたマルチモーダルモデルを用いた実効的ユニモーダル推論
- Authors: Syeda Nahida Akter, Aman Madaan, Sangwu Lee, Yiming Yang, Eric Nyberg
- Abstract要約: 我々は、単一の視覚言語モデル(textscvlm)を利用して、HTMLを用いて質問の構造化表現を生成する。
次に、HTMLをイメージとしてレンダリングし、最後に同じvlmを使用して、質問とイメージの両方を使用して質問に答えます。
我々は3つの数学タスクと9つの汎用推論タスクにおいて、最先端のtextscvlm を用いてアプローチを評価する。
- 参考スコア(独自算出の注目度): 40.83905569501714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The potential of Vision-Language Models (\textsc{vlm}s) often remains
underutilized in handling complex text-based problems, particularly when these
problems could benefit from visual representation. Resonating with humans'
ability to solve complex text-based problems by (1) creating a visual diagram
from the problem and (2) deducing what steps they need to take to solve it, we
propose \textsc{Self-Imagine}. We leverage a single Vision-Language Model
(\textsc{vlm}) to generate a structured representation of the question using
HTML, then render the HTML as an image, and finally use the same \vlm to answer
the question using both the question and the image. Our approach does not
require any additional training data or training. We evaluate our approach in
three mathematics tasks and nine general-purpose reasoning tasks using
state-of-the-art \textsc{vlm}. Our approach boosts the performance of
\textsc{vlm} on all math tasks (\gsm: +4.62\%; \asdiv: +4.49\%; \svamp:
+9.30\%) and the majority of the general-purpose reasoning tasks by 0.4\% to
13.20\% while achieving comparable performance in other tasks.
Code and data at https://github.com/snat1505027/self-imagine .
- Abstract(参考訳): Vision-Language Models (\textsc{vlm}s) のポテンシャルは、複雑なテキストベースの問題、特にこれらの問題が視覚表現の恩恵を受ける場合、しばしば未利用のままである。
1) 問題から視覚図を作成し,(2) 解決に要するステップを導出することにより, 複雑なテキストベースの問題を解く人間の能力と調和して, その解決方法を提案する。
我々は、単一のVision-Language Model(\textsc{vlm})を利用して、HTMLを用いて質問の構造化表現を生成し、次にHTMLを画像として描画し、最後に同じ \vlm を使って質問と画像の両方を使って質問に答える。
当社のアプローチでは、追加のトレーニングデータやトレーニングは必要ありません。
我々は3つの数学タスクと9つの汎用推論タスクにおいて、最先端の \textsc{vlm} を用いてアプローチを評価する。
我々のアプローチは、すべての数学タスク (\gsm: +4.62\%; \asdiv: +4.49\%; \svamp: +9.30\%) における \textsc{vlm} のパフォーマンスを高め、汎用推論タスクの大部分を 0.4\% から 13.20\% に引き上げ、他のタスクで同等のパフォーマンスを達成する。
コードとデータはhttps://github.com/snat1505027/self-imagine。
関連論文リスト
- Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training [24.989732666940153]
オープンソースのマルチモーダル大言語モデル(MLLM)は、テキスト入力や視覚入力を含む様々なタスクに優れる。
MLLMは複雑なマルチモーダルな数学的推論に苦慮し、GPT-4V(ision)やGemini-Proといった独自のモデルに遅れを取っている。
本稿では,2段階のトレーニングパイプラインVCARを提案する。
論文 参考訳(メタデータ) (2024-04-22T21:59:35Z) - MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。
我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。
このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文 参考訳(メタデータ) (2024-03-21T17:59:50Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned
Language Models [77.77951795883698]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
まず,視覚的質問応答,言語からのオブジェクトローカライゼーション,幻覚などの特性を探索する課題セットを対象とする,標準化された評価スイートをコンパイルする。
我々は、事前訓練された視覚表現を含むキー設計軸に沿ったVLMを厳格に調査し、ベース対インストラクション言語モデルを用いたトレードオフの定量化を行う。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Image Captioning for Effective Use of Language Models in Knowledge-Based
Visual Question Answering [17.51860125438028]
本稿では,画像と事前学習言語モデルの自動キャプションに基づく,単文のみの列車と推論手法を提案する。
外部知識 (OK-VQA) を必要とする視覚的質問応答タスクの結果, テキストのみのモデルは, パラメータ数に匹敵する事前学習されたマルチモーダル(画像-テキスト)モデルよりも優れていた。
論文 参考訳(メタデータ) (2021-09-15T14:11:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。