Fugu-MT 論文翻訳(概要): Lang2Act: Fine-Grained Visual Reasoning through Self-Emergent Linguistic Toolchains

論文の概要: Lang2Act: Fine-Grained Visual Reasoning through Self-Emergent Linguistic Toolchains

arxiv url: http://arxiv.org/abs/2602.13235v1
Date: Thu, 29 Jan 2026 14:44:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 12:01:13.572971
Title: Lang2Act: Fine-Grained Visual Reasoning through Self-Emergent Linguistic Toolchains
Title（参考訳）: Lang2Act: 自己組織化言語ツールチェーンによる細粒度ビジュアル推論
Authors: Yuqi Xiong, Chunyi Peng, Zhipeng Xu, Zhenghao Liu, Zulong Chen, Yukun Yan, Shuo Wang, Yu Gu, Ge Yu,
Abstract要約: VLM(Vision-Language Models)を付加したVRAG 既存のVRAGフレームワークは通常、VLMの知覚能力を拡張するために、厳格で事前定義された外部ツールに依存している。本稿では,自己創発型言語ツールチェーンによる視覚の微粒化と推論を可能にするLang2Actを提案する。
参考スコア（独自算出の注目度）: 28.974013317548664
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual Retrieval-Augmented Generation (VRAG) enhances Vision-Language Models (VLMs) by incorporating external visual documents to address a given query. Existing VRAG frameworks usually depend on rigid, pre-defined external tools to extend the perceptual capabilities of VLMs, typically by explicitly separating visual perception from subsequent reasoning processes. However, this decoupled design can lead to unnecessary loss of visual information, particularly when image-based operations such as cropping are applied. In this paper, we propose Lang2Act, which enables fine-grained visual perception and reasoning through self-emergent linguistic toolchains. Rather than invoking fixed external engines, Lang2Act collects self-emergent actions as linguistic tools and leverages them to enhance the visual perception capabilities of VLMs. To support this mechanism, we design a two-stage Reinforcement Learning (RL)-based training framework. Specifically, the first stage optimizes VLMs to self-explore high-quality actions for constructing a reusable linguistic toolbox, and the second stage further optimizes VLMs to exploit these linguistic tools for downstream reasoning effectively. Experimental results demonstrate the effectiveness of Lang2Act in substantially enhancing the visual perception capabilities of VLMs, achieving performance improvements of over 4%. All code and data are available at https://github.com/NEUIR/Lang2Act.
Abstract（参考訳）: Visual Retrieval-Augmented Generation (VRAG)は、あるクエリに対処するために外部のビジュアルドキュメントを組み込むことで、ビジョンランゲージモデル(VLM)を強化する。既存のVRAGフレームワークは通常、VLMの知覚能力を拡張するために、厳密で事前定義された外部ツールに依存している。しかし、この分離された設計は、特に収穫などの画像に基づく操作を施した場合、視覚情報の不要な損失につながる可能性がある。本稿では,Lang2Actを提案する。Lang2Actは,自己創発型言語ツールチェーンを介し,きめ細かな視覚知覚と推論を可能にする。固定された外部エンジンを呼び出すのではなく、Lang2Actは言語ツールとして自己創発的なアクションを収集し、VLMの視覚的知覚能力を高めるためにそれらを活用する。このメカニズムをサポートするために、我々は2段階強化学習(RL)ベースのトレーニングフレームワークを設計する。具体的には、第1段階はVLMを最適化し、再利用可能な言語ツールボックスを構築するための高品質なアクションを自己探索し、第2段階はさらにVLMを最適化し、これらの言語ツールを下流の推論に効果的に活用する。実験により, VLMの視覚知覚能力を大幅に向上させ, 4%以上の性能向上を実現するLang2Actの有効性が示された。すべてのコードとデータはhttps://github.com/NEUIR/Lang2Act.comで入手できる。

関連論文リスト

ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Model [61.29164681694533]
ViPERは、自己評価と自己予測を通じて反復的な進化を可能にするように設計されたセルフブートストラッピングフレームワークである。 Qwen-Viperは、汎用性を維持しながら、さまざまな視覚言語シナリオにおける優れたパフォーマンスを一貫して示す。
論文参考訳（メタデータ） (2025-10-28T10:42:57Z)
Perception Before Reasoning: Two-Stage Reinforcement Learning for Visual Reasoning in Vision-Language Models [33.78309915588303]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を引き出すのに非常に有効であることが証明されている。視覚言語モデル(VLM)の知覚能力と推論能力を両立させる2段階強化学習フレームワークを提案する。提案した2段階強化学習プロセスの後,視覚言語モデルであるPeBR-R1を得た。
論文参考訳（メタデータ） (2025-09-16T12:51:11Z)
Hidden in plain sight: VLMs overlook their visual representations [48.83628674170634]
視覚言語モデル(VLM)と視覚エンコーダを比較し、これらのモダリティをまたいで統合する能力を理解する。 VLMは視覚エンコーダよりも著しく性能が悪く、近距離性能に低下することがわかった。
論文参考訳（メタデータ） (2025-06-09T17:59:54Z)
VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use [33.83255323522487]
VTool-R1は、視覚言語モデルを訓練し、思考のマルチモーダル連鎖を生成する最初のフレームワークである。 VTool-R1はPythonベースのビジュアル編集ツールをReinforcement Learning Finetuningプロセスに統合する。
論文参考訳（メタデータ） (2025-05-25T18:23:39Z)
OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning [57.89304342666846]
OpenThinkIMGは、ツール拡張LVLMのための、最初のオープンソースで包括的なエンドツーエンドフレームワークです。本稿では,LVLMを学習し,外部視覚ツールを起動するための適応的なポリシーを学ぶための,新しい強化学習フレームワークV-ToolRLを提案する。 V-ToolRLにより、LVLMは最適なツール利用戦略を自律的に発見できる。
論文参考訳（メタデータ） (2025-05-13T14:35:51Z)
Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文参考訳（メタデータ） (2024-12-12T18:55:18Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文参考訳（メタデータ） (2023-12-12T18:58:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。