Fugu-MT 論文翻訳(概要): Smart Vision-Language Reasoners

論文の概要: Smart Vision-Language Reasoners

arxiv url: http://arxiv.org/abs/2407.04212v1
Date: Fri, 5 Jul 2024 01:47:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 14:50:59.573267
Title: Smart Vision-Language Reasoners
Title（参考訳）: Smart Vision-Language Reasoner
Authors: Denisa Roberts, Lucas Roberts,
Abstract要約: 視覚言語モデル(VLM)を推論として検討する。抽象化を形成する能力は、数学的推論、問題解決、その他のMath AIタスクの根底にある。 SMARTタスクで与えられた抽象概念を8軸のメタ推論と問題解決のスキルとして採用する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this article, we investigate vision-language models (VLM) as reasoners. The ability to form abstractions underlies mathematical reasoning, problem-solving, and other Math AI tasks. Several formalisms have been given to these underlying abstractions and skills utilized by humans and intelligent systems for reasoning. Furthermore, human reasoning is inherently multimodal, and as such, we focus our investigations on multimodal AI. In this article, we employ the abstractions given in the SMART task (Simple Multimodal Algorithmic Reasoning Task) introduced in \cite{cherian2022deep} as meta-reasoning and problem-solving skills along eight axes: math, counting, path, measure, logic, spatial, and pattern. We investigate the ability of vision-language models to reason along these axes and seek avenues of improvement. Including composite representations with vision-language cross-attention enabled learning multimodal representations adaptively from fused frozen pretrained backbones for better visual grounding. Furthermore, proper hyperparameter and other training choices led to strong improvements (up to $48\%$ gain in accuracy) on the SMART task, further underscoring the power of deep multimodal learning. The smartest VLM, which includes a novel QF multimodal layer, improves upon the best previous baselines in every one of the eight fundamental reasoning skills. End-to-end code is available at https://github.com/smarter-vlm/smarter.
Abstract（参考訳）: 本稿では,視覚言語モデル(VLM)を推論として検討する。抽象化を形成する能力は、数学的推論、問題解決、その他のMath AIタスクの根底にある。人や知的なシステムが推論のために利用するこれらの基礎的な抽象化とスキルには、いくつかの形式主義が与えられてきた。さらに、人間の推論は本質的にマルチモーダルであり、我々はマルチモーダルAIに焦点をあてる。本稿では,SMARTタスク(Simple Multimodal Algorithmic Reasoning Task)のメタ推論および問題解決技術として,数学,カウント,パス,測度,論理,空間,パターンの8つの軸に沿って導入されたSMARTタスク(Simple Multimodal Algorithmic Reasoning Task)の抽象化を用いる。視覚言語モデルがこれらの軸に沿って推論し、改善の道を探る能力について検討する。視覚言語によるクロスアテンションによる複合表現を含むことで、融合した凍結したバックボーンから適応的にマルチモーダル表現を学習することで、より良い視覚的グラウンド化を実現した。さらに、適切なハイパーパラメータやその他のトレーニング選択は、SMARTタスクに強い改善(最大4,8 % の精度向上)をもたらし、深いマルチモーダル学習のパワーをさらに強調した。新たなQFマルチモーダル層を含む最も賢いVLMは、8つの基本的な推論スキルのうちの1つにおいて、最も優れた以前のベースラインを改善する。エンドツーエンドのコードはhttps://github.com/smarter-vlm/smarter.comで入手できる。

関連論文リスト

MANBench: Is Your Multimodal Model Smarter than Human? [7.483339020254684]
9つのタスクにわたる1,314の質問からなるバイリンガル・ベンチマーク(英語と中国語)であるMANBenchを紹介する。我々は、最先端のマルチモーダル言語モデル(MLLM)と比較した。その結果、MLLMは知識やテキストイメージ理解といったタスクに優れていますが、より深いモーダルな推論タスクでは苦労しています。 MANBenchは、MLLMと人間のマルチモーダル能力のギャップを埋める努力を刺激することを期待している。
論文参考訳（メタデータ） (2025-06-04T08:42:14Z)
How Do Multimodal Large Language Models Handle Complex Multimodal Reasoning? Placing Them in An Extensible Escape Game [11.721839449847472]
マルチモーダル推論のベンチマークであるMM-Escapeを紹介する。 MM-Escapeは最終タスク完了と同時に中間モデル動作を強調している。大規模な実験により、MLLMはスケールに関係なく、最も単純な部屋の脱出タスクを完了できることが示されている。性能ボトルネックはモデルによって異なり、異なる障害モードとマルチモーダル推論能力の制限が明らかになる。
論文参考訳（メタデータ） (2025-03-13T04:48:43Z)
Imagine while Reasoning in Space: Multimodal Visualization-of-Thought [70.74453180101365]
大型言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の複雑な推論を強化するために、CoTプロンプト(Chain-of-Thought)が有効であることが証明された。我々は新しい推論パラダイムであるMultimodal Visualization-of-Thought (MVoT)を提案する。 MLLMにおいて、推論トレースの画像視覚化を生成することにより、視覚的思考を可能にする。
論文参考訳（メタデータ） (2025-01-13T18:23:57Z)
Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。 EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。 EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文参考訳（メタデータ） (2025-01-09T18:55:52Z)
MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。既存のベンチマークは、主に言語部分における推論能力を評価する。 MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文参考訳（メタデータ） (2024-12-05T17:08:19Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning [53.45295657891099]
本稿では,マルチモーダルなマルチターン・チェーン・オブ・シークレット・推論・フレームワークであるVisual-O1を提案する。人間のマルチモーダルなマルチターン推論をシミュレートし、高度にインテリジェントなモデルに即時体験を提供する。私たちの研究は、不確実性と曖昧さのある現実のシナリオにおいて、人工知能が人間のように機能する可能性を強調します。
論文参考訳（メタデータ） (2024-10-04T11:18:41Z)
ReMI: A Dataset for Reasoning with Multiple Images [41.954830849939526]
ReMIは、大規模言語モデルが複数の画像で推論できる能力を評価するために設計されたデータセットである。このデータセットは、数学、物理学、論理学、コード、表/チャート理解、空間的および時間的推論といった様々な推論領域にまたがる様々なタスクを含んでいる。我々は,最先端のLDMのベンチマークを行い,その性能と人間レベルの習熟度の間に大きなギャップがあることを発見した。
論文参考訳（メタデータ） (2024-06-13T14:37:04Z)
A Survey on Vision-Language-Action Models for Embodied AI [71.16123093739932]
視覚言語アクションモデル(VLA)はロボット学習の基盤となっている。汎用性、デキスタリティ、一般化可能性など、様々な手法が提案されている。 VLAは、長い水平タスクを実行可能なサブタスクに分解できるハイレベルなタスクプランナとして機能する。
論文参考訳（メタデータ） (2024-05-23T01:43:54Z)
Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-14T22:24:58Z)
Are Deep Neural Networks SMARTer than Second Graders? [85.60342335636341]
6～8歳児を対象としたビジュオ言語パズルの解法において,ニューラルネットワークの抽象化,推論,一般化能力の評価を行った。我々のデータセットは101のユニークなパズルで構成されており、各パズルは絵の質問で構成されており、それらの解には算術、代数学、空間推論を含むいくつかの基本的なスキルが混在している必要がある。実験により、強力なディープモデルは教師付き設定でパズルに合理的な性能を与えるが、一般化のために解析するとランダムな精度よりは良くないことが明らかになった。
論文参考訳（メタデータ） (2022-12-20T04:33:32Z)
Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文参考訳（メタデータ） (2022-08-17T12:36:26Z)
WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文参考訳（メタデータ） (2021-10-27T12:25:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。