Fugu-MT 論文翻訳(概要): On Data Synthesis and Post-training for Visual Abstract Reasoning

論文の概要: On Data Synthesis and Post-training for Visual Abstract Reasoning

arxiv url: http://arxiv.org/abs/2504.01324v1
Date: Wed, 02 Apr 2025 03:18:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 19:59:19.218078
Title: On Data Synthesis and Post-training for Visual Abstract Reasoning
Title（参考訳）: 視覚的抽象推論のためのデータ合成と後学習について
Authors: Ke Zhu, Yu Wang, Jiangjiang Liu, Qunyi Xie, Shanshan Liu, Gang Zhang,
Abstract要約: 我々は,LLaVANeXT 7Bモデルを用いて,特定の問題に対する認識と推論を行う。これまでのほとんどのVLMは、代表ベンチマークでほとんどランダムなパフォーマンスを示しなかったため、これは素晴らしいブレークスルーです。
参考スコア（独自算出の注目度）: 15.055924556135857
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper is a pioneering work attempting to address abstract visual reasoning (AVR) problems for large vision-language models (VLMs). We make a common LLaVA-NeXT 7B model capable of perceiving and reasoning about specific AVR problems, surpassing both open-sourced (e.g., Qwen-2-VL-72B) and closed-sourced powerful VLMs (e.g., GPT-4o) with significant margin. This is a great breakthrough since almost all previous VLMs fail or show nearly random performance on representative AVR benchmarks. Our key success is our innovative data synthesis and post-training process, aiming to fully relieve the task difficulty and elicit the model to learn, step by step. Our 7B model is also shown to be behave well on AVR without sacrificing common multimodal comprehension abilities. We hope our paper could serve as an early effort in this area and would inspire further research in abstract visual reasoning.
Abstract（参考訳）: 本稿では,大規模視覚言語モデル(VLM)における抽象視覚推論(AVR)問題に対処するための先駆的な研究である。我々は、オープンソース(Qwen-2-VL-72B)とクローズドソースの強力なVLM(g , GPT-4o)の両方を大きなマージンで超越して、特定のAVR問題を知覚し、推論することができる共通のLLaVA-NeXT 7Bモデルを作成する。これまでのほとんどのVLMは、AVRベンチマークでほとんどランダムなパフォーマンスを示しなかったため、これは素晴らしいブレークスルーです。私たちの重要な成功は、革新的なデータ合成とポストトレーニングプロセスであり、タスクの難しさを完全に軽減し、学習するモデルを段階的に引き出すことを目的としています。我々の7Bモデルは、一般的なマルチモーダル理解能力を犠牲にすることなく、AVR上でうまく振る舞うことが示されている。我々の論文がこの分野の初期の取り組みとして役立ち、抽象的な視覚的推論のさらなる研究を促すことを願っている。

関連論文リスト

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文参考訳（メタデータ） (2025-03-27T22:23:04Z)
LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning [76.82159851648711]
負対に対する埋め込みモデルの表現学習を動的に改善するフレームワークを提案する。 LLaVEは、最先端(SOTA)のパフォーマンスを実現する強力なベースラインを確立する。 LLaVEはゼロショット方式でテキストビデオ検索タスクを一般化し、高い性能を実現する。
論文参考訳（メタデータ） (2025-03-04T10:21:57Z)
HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文参考訳（メタデータ） (2025-02-08T07:50:22Z)
CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。 VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文参考訳（メタデータ） (2024-11-29T12:06:03Z)
ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文参考訳（メタデータ） (2024-09-23T17:47:59Z)
TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文参考訳（メタデータ） (2024-09-19T07:10:18Z)
A Unified View of Abstract Visual Reasoning Problems [0.0]
タスクの統一的なビューを導入し、各インスタンスは、パネルの数、場所、役割に関する前提のない単一のイメージとしてレンダリングされる。統一された視点の主な利点は、様々なタスクに適用可能な普遍的な学習モデルを開発する能力である。 Raven's Progressive Matrices と Visual Analogy Problems の4つのデータセットで実施された実験は、提案されたタスクの統一表現が、最先端のディープラーニング(DL)モデルや、より広範に、現代のDL画像認識方法に挑戦していることを示している。
論文参考訳（メタデータ） (2024-06-16T20:52:44Z)
OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。 OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文参考訳（メタデータ） (2024-06-13T15:46:55Z)
One Self-Configurable Model to Solve Many Abstract Visual Reasoning Problems [0.0]
本稿では,単一階層抽象視覚推論タスクを解くための統一モデルを提案する。提案したモデルはSCAR-Aware dynamic Layer (SAL)に依存しており、この問題の構造に重みを適応させる。実験により、SALベースのモデルは、一般的に、様々なタスクを効果的に解決し、その性能は最先端のタスク固有のベースラインと同等であることが示された。
論文参考訳（メタデータ） (2023-12-15T18:15:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。