論文の概要: On Data Synthesis and Post-training for Visual Abstract Reasoning
- arxiv url: http://arxiv.org/abs/2504.01324v1
- Date: Wed, 02 Apr 2025 03:18:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 19:59:19.218078
- Title: On Data Synthesis and Post-training for Visual Abstract Reasoning
- Title(参考訳): 視覚的抽象推論のためのデータ合成と後学習について
- Authors: Ke Zhu, Yu Wang, Jiangjiang Liu, Qunyi Xie, Shanshan Liu, Gang Zhang,
- Abstract要約: 我々は,LLaVANeXT 7Bモデルを用いて,特定の問題に対する認識と推論を行う。
これまでのほとんどのVLMは、代表ベンチマークでほとんどランダムなパフォーマンスを示しなかったため、これは素晴らしいブレークスルーです。
- 参考スコア(独自算出の注目度): 15.055924556135857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper is a pioneering work attempting to address abstract visual reasoning (AVR) problems for large vision-language models (VLMs). We make a common LLaVA-NeXT 7B model capable of perceiving and reasoning about specific AVR problems, surpassing both open-sourced (e.g., Qwen-2-VL-72B) and closed-sourced powerful VLMs (e.g., GPT-4o) with significant margin. This is a great breakthrough since almost all previous VLMs fail or show nearly random performance on representative AVR benchmarks. Our key success is our innovative data synthesis and post-training process, aiming to fully relieve the task difficulty and elicit the model to learn, step by step. Our 7B model is also shown to be behave well on AVR without sacrificing common multimodal comprehension abilities. We hope our paper could serve as an early effort in this area and would inspire further research in abstract visual reasoning.
- Abstract(参考訳): 本稿では,大規模視覚言語モデル(VLM)における抽象視覚推論(AVR)問題に対処するための先駆的な研究である。
我々は、オープンソース(Qwen-2-VL-72B)とクローズドソースの強力なVLM(g , GPT-4o)の両方を大きなマージンで超越して、特定のAVR問題を知覚し、推論することができる共通のLLaVA-NeXT 7Bモデルを作成する。
これまでのほとんどのVLMは、AVRベンチマークでほとんどランダムなパフォーマンスを示しなかったため、これは素晴らしいブレークスルーです。
私たちの重要な成功は、革新的なデータ合成とポストトレーニングプロセスであり、タスクの難しさを完全に軽減し、学習するモデルを段階的に引き出すことを目的としています。
我々の7Bモデルは、一般的なマルチモーダル理解能力を犠牲にすることなく、AVR上でうまく振る舞うことが示されている。
我々の論文がこの分野の初期の取り組みとして役立ち、抽象的な視覚的推論のさらなる研究を促すことを願っている。
関連論文リスト
- EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。
1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。
我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-07-18T16:15:09Z) - Beyond Task-Specific Reasoning: A Unified Conditional Generative Framework for Abstract Visual Reasoning [52.107043437362556]
抽象視覚推論(AVR)は、抽象ルールを素早く発見し、新しいシナリオに一般化することを可能にする。
本稿では,統一フレームワークにおける複数のタスクに対処する,統一条件生成解法(UCGS)を提案する。
UCGSはゼロショット推論の能力を示しており、テストフェーズで目に見えないタスクから問題に対する抽象的推論を行うことができる。
論文 参考訳(メタデータ) (2025-07-15T21:54:51Z) - VisuRiddles: Fine-grained Perception is a Primary Bottleneck for Multimodal Large Language Models in Abstract Visual Reasoning [66.84770041828462]
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、多くの推論タスクにおいて、その性能を著しく向上させてきた。
AVR(Abstract Visual Reasoning)は、抽象グラフィックの知覚に制限があるため、依然として重要な課題である。
PRSのベンチマークであるVisuRiddlesを提案し、モデルの推論能力を評価するために精巧に構築されたタスクを特徴付ける。
第二に、パーセプチュアル・リドル・シンセサイザー (PRS) を導入する。
論文 参考訳(メタデータ) (2025-06-03T07:24:00Z) - ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge [14.143521529613533]
視覚言語アクション(VLA)モデルは、ロボット工学の次世代モデルとして登場した。
既存のエンドツーエンドのVLAシステムは、モデルが特定のロボットタスクに適応するため、微調整中に重要な機能を失うことが多い。
一般化可能なVLAモデルは、VLMのコア能力を維持し拡張するべきである。
論文 参考訳(メタデータ) (2025-05-28T02:48:42Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning [76.82159851648711]
負対に対する埋め込みモデルの表現学習を動的に改善するフレームワークを提案する。
LLaVEは、最先端(SOTA)のパフォーマンスを実現する強力なベースラインを確立する。
LLaVEはゼロショット方式でテキストビデオ検索タスクを一般化し、高い性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T10:21:57Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z) - A Unified View of Abstract Visual Reasoning Problems [0.0]
タスクの統一的なビューを導入し、各インスタンスは、パネルの数、場所、役割に関する前提のない単一のイメージとしてレンダリングされる。
統一された視点の主な利点は、様々なタスクに適用可能な普遍的な学習モデルを開発する能力である。
Raven's Progressive Matrices と Visual Analogy Problems の4つのデータセットで実施された実験は、提案されたタスクの統一表現が、最先端のディープラーニング(DL)モデルや、より広範に、現代のDL画像認識方法に挑戦していることを示している。
論文 参考訳(メタデータ) (2024-06-16T20:52:44Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z) - One Self-Configurable Model to Solve Many Abstract Visual Reasoning
Problems [0.0]
本稿では,単一階層抽象視覚推論タスクを解くための統一モデルを提案する。
提案したモデルはSCAR-Aware dynamic Layer (SAL)に依存しており、この問題の構造に重みを適応させる。
実験により、SALベースのモデルは、一般的に、様々なタスクを効果的に解決し、その性能は最先端のタスク固有のベースラインと同等であることが示された。
論文 参考訳(メタデータ) (2023-12-15T18:15:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。