Fugu-MT 論文翻訳(概要): Self-Imagine: Effective Unimodal Reasoning with Multimodal Models using Self-Imagination

論文の概要: Self-Imagine: Effective Unimodal Reasoning with Multimodal Models using Self-Imagination

arxiv url: http://arxiv.org/abs/2401.08025v1
Date: Tue, 16 Jan 2024 00:46:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 15:38:49.437427
Title: Self-Imagine: Effective Unimodal Reasoning with Multimodal Models using Self-Imagination
Title（参考訳）: 自己イメージを用いたマルチモーダルモデルを用いた実効的ユニモーダル推論
Authors: Syeda Nahida Akter, Aman Madaan, Sangwu Lee, Yiming Yang, Eric Nyberg
Abstract要約: 我々は、単一の視覚言語モデル(textscvlm)を利用して、HTMLを用いて質問の構造化表現を生成する。次に、HTMLをイメージとしてレンダリングし、最後に同じvlmを使用して、質問とイメージの両方を使用して質問に答えます。我々は3つの数学タスクと9つの汎用推論タスクにおいて、最先端のtextscvlm を用いてアプローチを評価する。
参考スコア（独自算出の注目度）: 40.83905569501714
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The potential of Vision-Language Models (\textsc{vlm}s) often remains underutilized in handling complex text-based problems, particularly when these problems could benefit from visual representation. Resonating with humans' ability to solve complex text-based problems by (1) creating a visual diagram from the problem and (2) deducing what steps they need to take to solve it, we propose \textsc{Self-Imagine}. We leverage a single Vision-Language Model (\textsc{vlm}) to generate a structured representation of the question using HTML, then render the HTML as an image, and finally use the same \vlm to answer the question using both the question and the image. Our approach does not require any additional training data or training. We evaluate our approach in three mathematics tasks and nine general-purpose reasoning tasks using state-of-the-art \textsc{vlm}. Our approach boosts the performance of \textsc{vlm} on all math tasks (\gsm: +4.62\%; \asdiv: +4.49\%; \svamp: +9.30\%) and the majority of the general-purpose reasoning tasks by 0.4\% to 13.20\% while achieving comparable performance in other tasks. Code and data at https://github.com/snat1505027/self-imagine .
Abstract（参考訳）: Vision-Language Models (\textsc{vlm}s) のポテンシャルは、複雑なテキストベースの問題、特にこれらの問題が視覚表現の恩恵を受ける場合、しばしば未利用のままである。 1) 問題から視覚図を作成し,(2) 解決に要するステップを導出することにより, 複雑なテキストベースの問題を解く人間の能力と調和して, その解決方法を提案する。我々は、単一のVision-Language Model(\textsc{vlm})を利用して、HTMLを用いて質問の構造化表現を生成し、次にHTMLを画像として描画し、最後に同じ \vlm を使って質問と画像の両方を使って質問に答える。当社のアプローチでは、追加のトレーニングデータやトレーニングは必要ありません。我々は3つの数学タスクと9つの汎用推論タスクにおいて、最先端の \textsc{vlm} を用いてアプローチを評価する。我々のアプローチは、すべての数学タスク (\gsm: +4.62\%; \asdiv: +4.49\%; \svamp: +9.30\%) における \textsc{vlm} のパフォーマンスを高め、汎用推論タスクの大部分を 0.4\% から 13.20\% に引き上げ、他のタスクで同等のパフォーマンスを達成する。コードとデータはhttps://github.com/snat1505027/self-imagine。

関連論文リスト

Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency [29.28977802424541]
視覚的依存を明示するマルチモーダル数学的推論のためのベンチマークであるVCBENCHを紹介する。 VCBENCHには6つの認知領域に1,720の問題がある。我々は、VCBENCH上で26の最先端LVLMを評価し、高い性能差を示し、トップモデルでさえ50%以上の精度を達成できなかった。
論文参考訳（メタデータ） (2025-04-24T06:16:38Z)
Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection [53.558449071113245]
Vision-Language Models (VLM) は、アライメントされたビジュアルエンコーダを利用して、画像をビジュアルトークンに変換することで、バックボーン大言語モデル (LLM) によるテキストと同じように処理することができる。視覚言語モデリングの最近の進歩は、すべての符号化されたサブイメージをモデルに供給する画像トリミング技術を導入している。本稿では,既存のVLMとシームレスに統合し,細粒度処理能力を高める軽量で普遍的なフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-14T18:33:31Z)
MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions [37.60935581067836]
MindGYMは、大規模な視覚言語モデル(VLM)を強化するためのフレームワークである。 MindGYMは高いデータ効率(例えば、400サンプルのMathVision-Miniでは+16%のゲイン)、計算効率(トレーニングと推論コストの削減)、タスク間の堅牢な一般化を実現している。
論文参考訳（メタデータ） (2025-03-12T16:03:03Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。 ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-31T17:54:29Z)
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models [19.787224412654872]
In-deepth Assessment of Vision-Language Models (VLMs) のための動的視覚数学ベンチマークであるDynaMathを紹介する。 DynaMathには501の高品質でマルチトピックなシード質問が含まれており、それぞれがPythonプログラムとして表現されている。その結果,10変種すべてにおいて正解された種子質問の割合として定義される最悪のモデル精度は,平均値よりも有意に低いことがわかった。
論文参考訳（メタデータ） (2024-10-29T17:29:19Z)
AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。 5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文参考訳（メタデータ） (2024-10-28T17:55:08Z)
Math-PUMA: Progressive Upward Multimodal Alignment to Enhance Mathematical Reasoning [5.9767694994869425]
MLLM(Multimodal Large Language Models)は、テキストベースの数学的問題の解法として優れている。彼らは、主に自然の風景画像で訓練されているため、数学的図形に苦しむ。本研究では,プログレッシブ・アップワード・マルチモーダルアライメントに着目したMath-PUMAを提案する。
論文参考訳（メタデータ） (2024-08-16T10:11:05Z)
AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding [44.79843213164787]
身体化されたAIパーソナルアシスタントは、人間と効果的に協力するために具体的理解を必要とする。現在のビジョンランゲージモデル(VLM)は主に、エゴセントリックな体験の豊かさを無視して、第三者の視点ビデオに焦点を当てている。本稿では,ビデオキャプションにおけるVLMのトレーニングや,エゴセントリックなビデオに特有の質問応答を行うためのEgocentric Video Understanding dataset(EVUD)を紹介する。本稿では,EVUD 上でパラメータ効率の高い手法を用いて訓練した 7B パラメータ VLM である AlanaVLM を提案する。
論文参考訳（メタデータ） (2024-06-19T20:14:14Z)
MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文参考訳（メタデータ） (2024-03-21T17:59:50Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-02-06T18:43:48Z)
MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。 GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文参考訳（メタデータ） (2023-10-03T17:57:24Z)
Image Captioning for Effective Use of Language Models in Knowledge-Based Visual Question Answering [17.51860125438028]
本稿では,画像と事前学習言語モデルの自動キャプションに基づく,単文のみの列車と推論手法を提案する。外部知識 (OK-VQA) を必要とする視覚的質問応答タスクの結果, テキストのみのモデルは, パラメータ数に匹敵する事前学習されたマルチモーダル(画像-テキスト)モデルよりも優れていた。
論文参考訳（メタデータ） (2021-09-15T14:11:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。