論文の概要: Lang2Act: Fine-Grained Visual Reasoning through Self-Emergent Linguistic Toolchains
- arxiv url: http://arxiv.org/abs/2602.13235v1
- Date: Thu, 29 Jan 2026 14:44:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.572971
- Title: Lang2Act: Fine-Grained Visual Reasoning through Self-Emergent Linguistic Toolchains
- Title(参考訳): Lang2Act: 自己組織化言語ツールチェーンによる細粒度ビジュアル推論
- Authors: Yuqi Xiong, Chunyi Peng, Zhipeng Xu, Zhenghao Liu, Zulong Chen, Yukun Yan, Shuo Wang, Yu Gu, Ge Yu,
- Abstract要約: VLM(Vision-Language Models)を付加したVRAG
既存のVRAGフレームワークは通常、VLMの知覚能力を拡張するために、厳格で事前定義された外部ツールに依存している。
本稿では,自己創発型言語ツールチェーンによる視覚の微粒化と推論を可能にするLang2Actを提案する。
- 参考スコア(独自算出の注目度): 28.974013317548664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Retrieval-Augmented Generation (VRAG) enhances Vision-Language Models (VLMs) by incorporating external visual documents to address a given query. Existing VRAG frameworks usually depend on rigid, pre-defined external tools to extend the perceptual capabilities of VLMs, typically by explicitly separating visual perception from subsequent reasoning processes. However, this decoupled design can lead to unnecessary loss of visual information, particularly when image-based operations such as cropping are applied. In this paper, we propose Lang2Act, which enables fine-grained visual perception and reasoning through self-emergent linguistic toolchains. Rather than invoking fixed external engines, Lang2Act collects self-emergent actions as linguistic tools and leverages them to enhance the visual perception capabilities of VLMs. To support this mechanism, we design a two-stage Reinforcement Learning (RL)-based training framework. Specifically, the first stage optimizes VLMs to self-explore high-quality actions for constructing a reusable linguistic toolbox, and the second stage further optimizes VLMs to exploit these linguistic tools for downstream reasoning effectively. Experimental results demonstrate the effectiveness of Lang2Act in substantially enhancing the visual perception capabilities of VLMs, achieving performance improvements of over 4%. All code and data are available at https://github.com/NEUIR/Lang2Act.
- Abstract(参考訳): Visual Retrieval-Augmented Generation (VRAG)は、あるクエリに対処するために外部のビジュアルドキュメントを組み込むことで、ビジョンランゲージモデル(VLM)を強化する。
既存のVRAGフレームワークは通常、VLMの知覚能力を拡張するために、厳密で事前定義された外部ツールに依存している。
しかし、この分離された設計は、特に収穫などの画像に基づく操作を施した場合、視覚情報の不要な損失につながる可能性がある。
本稿では,Lang2Actを提案する。Lang2Actは,自己創発型言語ツールチェーンを介し,きめ細かな視覚知覚と推論を可能にする。
固定された外部エンジンを呼び出すのではなく、Lang2Actは言語ツールとして自己創発的なアクションを収集し、VLMの視覚的知覚能力を高めるためにそれらを活用する。
このメカニズムをサポートするために、我々は2段階強化学習(RL)ベースのトレーニングフレームワークを設計する。
具体的には、第1段階はVLMを最適化し、再利用可能な言語ツールボックスを構築するための高品質なアクションを自己探索し、第2段階はさらにVLMを最適化し、これらの言語ツールを下流の推論に効果的に活用する。
実験により, VLMの視覚知覚能力を大幅に向上させ, 4%以上の性能向上を実現するLang2Actの有効性が示された。
すべてのコードとデータはhttps://github.com/NEUIR/Lang2Act.comで入手できる。
関連論文リスト
- Hidden in plain sight: VLMs overlook their visual representations [48.83628674170634]
視覚言語モデル(VLM)と視覚エンコーダを比較し、これらのモダリティをまたいで統合する能力を理解する。
VLMは視覚エンコーダよりも著しく性能が悪く、近距離性能に低下することがわかった。
論文 参考訳(メタデータ) (2025-06-09T17:59:54Z) - Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。