論文の概要: STELAR-VISION: Self-Topology-Aware Efficient Learning for Aligned Reasoning in Vision
- arxiv url: http://arxiv.org/abs/2508.08688v1
- Date: Tue, 12 Aug 2025 07:27:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.33241
- Title: STELAR-VISION: Self-Topology-Aware Efficient Learning for Aligned Reasoning in Vision
- Title(参考訳): STELAR-VISION:視覚におけるアライメントの自己位相対応学習
- Authors: Chen Li, Han Zhang, Zhantao Yang, Fangyi Chen, Zihan Wang, Anudeepsekhar Bolimera, Marios Savvides,
- Abstract要約: トポロジを意識した推論のためのトレーニングフレームワークSTELAR-Visionを紹介する。
コアとなるTopoAugは、さまざまなトポロジカルな構造でトレーニングを充実させる合成データパイプラインだ。
MATH-VとVLM-S2Hでは、STELAR-Visionはベースモデルの精度を9.7%向上し、より大型のQwen2VL-72B-インストラクションを7.3%上回っている。
- 参考スコア(独自算出の注目度): 24.162895928364062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have made significant strides in reasoning, yet they often struggle with complex multimodal tasks and tend to generate overly verbose outputs. A key limitation is their reliance on chain-of-thought (CoT) reasoning, despite many tasks benefiting from alternative topologies like trees or graphs. To address this, we introduce STELAR-Vision, a training framework for topology-aware reasoning. At its core is TopoAug, a synthetic data pipeline that enriches training with diverse topological structures. Using supervised fine-tuning and reinforcement learning, we post-train Qwen2VL models with both accuracy and efficiency in mind. Additionally, we propose Frugal Learning, which reduces output length with minimal accuracy loss. On MATH-V and VLM-S2H, STELAR-Vision improves accuracy by 9.7% over its base model and surpasses the larger Qwen2VL-72B-Instruct by 7.3%. On five out-of-distribution benchmarks, it outperforms Phi-4-Multimodal-Instruct by up to 28.4% and LLaMA-3.2-11B-Vision-Instruct by up to 13.2%, demonstrating strong generalization. Compared to Chain-Only training, our approach achieves 4.3% higher overall accuracy on in-distribution datasets and consistently outperforms across all OOD benchmarks. We have released datasets, and code will be available.
- Abstract(参考訳): 視覚言語モデル(VLM)は推論において大きな進歩を遂げているが、複雑なマルチモーダルなタスクに苦しむことが多く、冗長な出力を生成する傾向がある。
キーとなる制限は、木やグラフのような代替トポロジの恩恵を受ける多くのタスクにもかかわらず、チェーン・オブ・ソート(CoT)推論への依存である。
これを解決するために、トポロジ対応推論のためのトレーニングフレームワークSTELAR-Visionを紹介する。
コアとなるTopoAugは、さまざまなトポロジカルな構造でトレーニングを充実させる合成データパイプラインだ。
教師付き微調整と強化学習を用いて,精度と効率を念頭において,訓練後のQwen2VLモデルについて検討した。
さらに,最小の精度で出力長を削減するFrugal Learningを提案する。
MATH-VとVLM-S2Hでは、STELAR-Visionはベースモデルの精度を9.7%向上し、より大型のQwen2VL-72B-インストラクションを7.3%上回っている。
5つのアウト・オブ・ディストリビューション・ベンチマークでは、Phi-4-Multimodal-Instructを最大28.4%、LLaMA-3.2-11B-Vision-Instructを最大13.2%上回り、強力な一般化を示している。
チェーンオンリートレーニングと比較して,本手法は分散データセットの全体的な精度が4.3%向上し,OODベンチマーク全体のパフォーマンスが一貫して向上する。
データセットがリリースされ、コードは利用可能になります。
関連論文リスト
- Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:41:14Z) - ViLBench: A Suite for Vision-Language Process Reward Modeling [25.565912785217822]
本稿では,現在の視覚大言語モデル(VLLM)を2種類の報酬モデルとしてベンチマークする。
我々は、集中的なプロセス報酬信号を必要とするように設計された視覚言語ベンチマークViLBenchを紹介する。
本稿では,一般VLLMと報奨モデルとのギャップを埋めるための有望な経路を予め紹介する。
論文 参考訳(メタデータ) (2025-03-26T06:38:31Z) - LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning [76.82159851648711]
負対に対する埋め込みモデルの表現学習を動的に改善するフレームワークを提案する。
LLaVEは、最先端(SOTA)のパフォーマンスを実現する強力なベースラインを確立する。
LLaVEはゼロショット方式でテキストビデオ検索タスクを一般化し、高い性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T10:21:57Z) - VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。
現在の評価方法は、主に従来のタスクからのAIアノテーション付き好みラベルに依存している。
VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがる包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-11-26T14:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。