論文の概要: Enhancing Visual Reasoning with Autonomous Imagination in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2411.18142v1
- Date: Wed, 27 Nov 2024 08:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:26:41.044269
- Title: Enhancing Visual Reasoning with Autonomous Imagination in Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルにおける自律的イマジネーションによる視覚的推論の強化
- Authors: Jingming Liu, Yumeng Li, Boyuan Xiao, Yichang Jian, Ziang Qin, Tianjia Shao, Yao-Xiang Ding, Kun Zhou,
- Abstract要約: 本稿では,MLLMが入力シーンをその推論状態に基づいて自動修正できる新しい視覚推論パラダイムを提案する。
そこで我々は,MLLMが焦点,無視,変換といった操作を通じて視覚的な修正を行う,新しいプラグアンドプレイの想像空間を導入する。
我々は,厳密な数え上げ,単純なジグソーパズルの解法,オブジェクト配置にまたがるベンチマークを用いて,我々のアプローチを検証する。
- 参考スコア(独自算出の注目度): 27.78471707423076
- License:
- Abstract: There have been recent efforts to extend the Chain-of-Thought (CoT) paradigm to Multimodal Large Language Models (MLLMs) by finding visual clues in the input scene, advancing the visual reasoning ability of MLLMs. However, current approaches are specially designed for the tasks where clue finding plays a major role in the whole reasoning process, leading to the difficulty in handling complex visual scenes where clue finding does not actually simplify the whole reasoning task. To deal with this challenge, we propose a new visual reasoning paradigm enabling MLLMs to autonomously modify the input scene to new ones based on its reasoning status, such that CoT is reformulated as conducting simple closed-loop decision-making and reasoning steps under a sequence of imagined visual scenes, leading to natural and general CoT construction. To implement this paradigm, we introduce a novel plug-and-play imagination space, where MLLMs conduct visual modifications through operations like focus, ignore, and transform based on their native reasoning ability without specific training. We validate our approach through a benchmark spanning dense counting, simple jigsaw puzzle solving, and object placement, challenging the reasoning ability beyond clue finding. The results verify that while existing techniques fall short, our approach enables MLLMs to effectively reason step by step through autonomous imagination. Project page: https://future-item.github.io/autoimagine-site.
- Abstract(参考訳): 近年,MLLMの視覚的推論能力を向上し,入力シーンに視覚的手がかりを見出すことにより,CoTパラダイムをマルチモーダル大言語モデル(MLLM)に拡張する試みが進められている。
しかし、現在の手法は、手がかり発見がすべての推論プロセスにおいて重要な役割を果たすタスクのために特別に設計されており、手がかり発見が実際に推論タスク全体を単純化しない複雑な視覚的なシーンを扱うのが困難である。
この課題に対処するために、MLLM が入力シーンをその推論状態に基づいて自律的に修正できる新しい視覚推論パラダイムを提案し、CoT は、想像上のシーンのシーケンスの下で単純なクローズドループ決定と推論ステップを行なえるように再構成され、自然および一般の CoT 構築に繋がる。
このパラダイムを実現するために,MLLM は,特定の訓練を伴わないネイティブ推論能力に基づいて,焦点,無視,変換などの操作を通じて視覚的な修正を行う,新しいプラグアンドプレイ・イマジネーション空間を導入する。
我々は,厳密な数え上げ,単純なジグソーパズルの解法,オブジェクト配置にまたがるベンチマークを用いて,我々のアプローチを検証し,手がかり発見以上の推論能力に挑戦する。
その結果,既存の手法が不足する一方で,MLLMが自律的想像力を通じてステップバイステップを効果的に推論することが可能であることが確認された。
プロジェクトページ: https://future-item.github.io/autoimagine-site
関連論文リスト
- Imagine while Reasoning in Space: Multimodal Visualization-of-Thought [70.74453180101365]
大型言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の複雑な推論を強化するために、CoTプロンプト(Chain-of-Thought)が有効であることが証明された。
我々は新しい推論パラダイムであるMultimodal Visualization-of-Thought (MVoT)を提案する。
MLLMにおいて、推論トレースの画像視覚化を生成することにより、視覚的思考を可能にする。
論文 参考訳(メタデータ) (2025-01-13T18:23:57Z) - DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests [69.00444996464662]
本稿では、複雑な実世界のシナリオにおける視覚的連鎖推論を評価するために、駆動理論テストから得られた新しいベンチマークであるDrivingVQAを提案する。
実験の結果,オープンソースおよびプロプライエタリなLVLMは,ゼロショット設定下での視覚的連鎖推論に苦慮していることがわかった。
視覚的推論を改善するために関連エンティティを活用するトレーニング戦略について検討する。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Socratic Questioning: Learn to Self-guide Multimodal Reasoning in the Wild [35.91285472401222]
軽量マルチモーダル大言語モデル(MLLM)に適した革新的学習・推論フレームワークを考案する。
我々の自己組織化アプローチはMLLMを組織的にガイドし、ターゲット問題に関連する視覚的手がかりに集中させ、幻覚を減らし、きめ細かい画像の詳細を記述できるモデルの能力を高める。
各種ベンチマーク実験により,SQの自己探索,ゼロショット視覚推論,幻覚緩和における顕著な能力を示す。
論文 参考訳(メタデータ) (2025-01-06T12:16:56Z) - Thinking Before Looking: Improving Multimodal LLM Reasoning via Mitigating Visual Hallucination [13.706325901731665]
MLLM(Multimodal large language model)は、視覚的・言語的モダリティの統合を推進している。
思考の連鎖(CoT)推論のような現在のアプローチは、大規模言語モデル(LLM)の認知能力を増強している。
しかし、MLLMへの適応は、相互モダリティ理解における幻覚のリスクの増大によって妨げられている。
論文 参考訳(メタデータ) (2024-11-15T21:01:37Z) - Enhancing Advanced Visual Reasoning Ability of Large Language Models [20.32900494896848]
VL(Vision-Language)研究の最近の進歩は、複雑な視覚的推論のための新しいベンチマークを引き起こした。
我々はCVR-LLM(Complex Visual Reasoning Large Language Models)を提案する。
提案手法は,反復的自己修正ループを用いて,画像の詳細なコンテキスト認識記述に変換する。
また、LLMの文脈的理解と推論を強化するために、新しいマルチモーダル・インコンテキスト学習(ICL)手法を導入する。
論文 参考訳(メタデータ) (2024-09-21T02:10:19Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Fact :Teaching MLLMs with Faithful, Concise and Transferable Rationales [102.54274021830207]
MLLMの教えに忠実で簡潔で伝達しやすい多モーダル論理を生成するために設計された新しいパラダイムであるFactを紹介する。
プログラミングパラダイムからエンドツーエンドパラダイムに転送可能な合理性をフィルタリングして、転送可能性を保証する。
また,画像とテキストの相関性が高いため,幻覚の低減も図っている。
論文 参考訳(メタデータ) (2024-04-17T07:20:56Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。