Fugu-MT 論文翻訳(概要): LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

論文の概要: LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

arxiv url: http://arxiv.org/abs/2501.06186v1
Date: Fri, 10 Jan 2025 18:59:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-13 18:34:15.346289
Title: LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs
Title（参考訳）: LlamaV-o1: LLMにおけるステップバイステップのビジュアル推論の再考
Authors: Omkar Thawakar, Dinura Dissanayake, Ketan More, Ritesh Thawkar, Ahmed Heakl, Noor Ahsan, Yuhao Li, Mohammed Zumri, Jean Lahoud, Rao Muhammad Anwer, Hisham Cholakkal, Ivan Laptev, Mubarak Shah, Fahad Shahbaz Khan, Salman Khan,
Abstract要約: 大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
参考スコア（独自算出の注目度）: 103.0226977561914
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reasoning is a fundamental capability for solving complex multi-step problems, particularly in visual contexts where sequential step-wise understanding is essential. Existing approaches lack a comprehensive framework for evaluating visual reasoning and do not emphasize step-wise problem-solving. To this end, we propose a comprehensive framework for advancing step-by-step visual reasoning in large language models (LMMs) through three key contributions. First, we introduce a visual reasoning benchmark specifically designed to evaluate multi-step reasoning tasks. The benchmark presents a diverse set of challenges with eight different categories ranging from complex visual perception to scientific reasoning with over 4k reasoning steps in total, enabling robust evaluation of LLMs' abilities to perform accurate and interpretable visual reasoning across multiple steps. Second, we propose a novel metric that assesses visual reasoning quality at the granularity of individual steps, emphasizing both correctness and logical coherence. The proposed metric offers deeper insights into reasoning performance compared to traditional end-task accuracy metrics. Third, we present a new multimodal visual reasoning model, named LlamaV-o1, trained using a multi-step curriculum learning approach, where tasks are progressively organized to facilitate incremental skill acquisition and problem-solving. The proposed LlamaV-o1 is designed for multi-step reasoning and learns step-by-step through a structured training paradigm. Extensive experiments show that our LlamaV-o1 outperforms existing open-source models and performs favorably against close-source proprietary models. Compared to the recent Llava-CoT, our LlamaV-o1 achieves an average score of 67.3 with an absolute gain of 3.8\% across six benchmarks while being 5 times faster during inference scaling. Our benchmark, model, and code are publicly available.
Abstract（参考訳）: 推論は複雑な多段階問題、特に逐次的なステップワイドな理解が不可欠である視覚的コンテキストにおいて、基本的な能力である。既存のアプローチには、視覚的推論を評価するための包括的なフレームワークがなく、ステップワイズな問題解決に重点を置いていない。そこで本研究では,3つの重要なコントリビューションを通じて,大規模言語モデル(LMM)におけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。まず,多段階推論タスクの評価に特化して設計された視覚推論ベンチマークを提案する。このベンチマークでは、複雑な視覚知覚から科学的推論まで、合計4k以上の推論ステップを含む8つのカテゴリの様々な課題が示されており、複数のステップにわたる正確な視覚的推論を行うLLMの能力の堅牢な評価を可能にしている。第2に,視覚的推論品質を個々のステップの粒度で評価し,正確さと論理的一貫性の両方を強調した新しい指標を提案する。提案したメトリクスは、従来のエンドツーエンドの精度メトリクスと比較して、推論のパフォーマンスに関する深い洞察を提供する。第3に、多段階のカリキュラム学習アプローチを用いて学習し、段階的なスキル獲得と問題解決を促進するためにタスクを段階的に編成する、LlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。提案したLlamaV-o1は多段階推論用に設計され、構造化トレーニングパラダイムを通じて段階的に学習する。我々のLlamaV-o1は、既存のオープンソースモデルよりも優れており、オープンソースプロプライエタリモデルに対して好意的に機能します。最近のLlava-CoTと比較して、LlamaV-o1の平均スコアは67.3で、6つのベンチマークで絶対利得は3.8\%で、推論スケーリングの5倍高速です。私たちのベンチマーク、モデル、コードは公開されています。

関連論文リスト

VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions [37.60935581067836]
MindGYMは、大規模な視覚言語モデル(VLM)を強化するためのフレームワークである。 MindGYMは高いデータ効率(例えば、400サンプルのMathVision-Miniでは+16%のゲイン)、計算効率(トレーニングと推論コストの削減)、タスク間の堅牢な一般化を実現している。
論文参考訳（メタデータ） (2025-03-12T16:03:03Z)
Graph-Augmented Reasoning: Evolving Step-by-Step Knowledge Graph Retrieval for LLM Reasoning [55.6623318085391]
最近の大規模言語モデル(LLM)推論は、限られたドメイン知識、幻覚への感受性、制約された推論深さに悩まされている。本稿では、ステップワイズ知識グラフ検索とステップワイズ推論の統合に関する最初の研究について述べる。本稿では,プロセス指向の知識グラフ構築を中心としたフレームワークであるKG-RAR,階層的検索戦略,検索後処理と報酬モデルを提案する。
論文参考訳（メタデータ） (2025-03-03T15:20:41Z)
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文参考訳（メタデータ） (2025-02-27T16:23:25Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
LLaVA-CoT: Let Vision Language Models Reason Step-by-Step [36.042551817732964]
LLaVA-CoTは、自律的な多段階推論を実現するために設計された新しいVLMである。チェーン・オブ・シークレットのプロンプトとは異なり、LLaVA-CoTは独立に要約、視覚的解釈、論理的推論、結論生成の逐次的な段階に関与する。 100kのトレーニングサンプルと単純な推論時間スケーリング手法により、LLaVA-CoTはベースモデルを幅広いマルチモーダル推論ベンチマークで7.4%上回る。
論文参考訳（メタデータ） (2024-11-15T18:58:31Z)
ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom [40.904175628582855]
本稿ではProReasonという新しいビジュアル推論フレームワークを紹介する。 ProReasonは、マルチランプロアクティブな知覚と分離されたビジョン推論機能を備えている。実験の結果、ProReasonは既存のマルチステップ推論フレームワークとパッシブピアメソッドの両方より優れていることがわかった。
論文参考訳（メタデータ） (2024-10-18T03:22:06Z)
Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language Models [46.26140720993383]
Multi-LogiEvalは、様々な推論規則と深さを持つ多段階論理推論を含む総合的な評価データセットである。 GPT-4, ChatGPT, Gemini-Pro, Yi, Orca, Mistralなどの大規模言語モデルの評価を行った。
論文参考訳（メタデータ） (2024-06-24T23:02:56Z)
Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs [83.24033574914425]
視覚的問題解決に関わる知覚と推論のプロセスを切り離すために設計された革新的フレームワークであるPrismを提示する。プリズムは、VLMを利用してテキスト形式で視覚情報を抽出・調音する知覚段階と、抽出された視覚情報に基づいて応答を定式化する推論段階と、2つの異なる段階から構成される。私たちの分析フレームワークは、視覚言語タスクのコスト効率のよいソリューションとして、Prismの可能性について、いくつかの貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-06-20T17:54:03Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
Resprompt: Residual Connection Prompting Advances Multi-Step Reasoning in Large Language Models [73.4425450752596]
チェーン・オブ・シント(CoT)のプロンプトによって、大きな言語モデル(LLM)の推論の可能性は著しく解放された。しかし、標準的なCoTは複数の推論ステップを必要とする問題では効果が低い。 LLMにおける多段階推論を推し進める新しいプロンプト戦略であるRESPROMPTを提案する。
論文参考訳（メタデータ） (2023-10-07T08:56:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。