論文の概要: Top-Down Semantic Refinement for Image Captioning
- arxiv url: http://arxiv.org/abs/2510.22391v1
- Date: Sat, 25 Oct 2025 18:27:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.959909
- Title: Top-Down Semantic Refinement for Image Captioning
- Title(参考訳): 画像キャプションのためのトップダウンセマンティックリファインメント
- Authors: Jusheng Zhang, Kaitong Cai, Jing Yang, Jian Wang, Chengpei Tang, Keze Wang,
- Abstract要約: 大きな視覚言語モデル(VLM)は、画像キャプションに固有の矛盾に直面している。
その強力なシングルステップ生成能力は、しばしばミオピックな意思決定プロセスに繋がる。
生成過程をマルコフ決定過程(MDP)としてモデル化したTDSR(Top-Down Semantic Refinement)という新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.716415599823243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (VLMs) face an inherent contradiction in image captioning: their powerful single-step generation capabilities often lead to a myopic decision-making process. This makes it difficult to maintain global narrative coherence while capturing rich details, a limitation that is particularly pronounced in tasks that require multi-step and complex scene description. To overcome this fundamental challenge, we redefine image captioning as a goal-oriented hierarchical refinement planning problem, and further propose a novel framework, named Top-Down Semantic Refinement (TDSR), which models the generation process as a Markov Decision Process (MDP). However, planning within the vast state space of a VLM presents a significant computational hurdle. Our core contribution, therefore, is the design of a highly efficient Monte Carlo Tree Search (MCTS) algorithm tailored for VLMs. By incorporating a visual-guided parallel expansion and a lightweight value network, our TDSR reduces the call frequency to the expensive VLM by an order of magnitude without sacrificing planning quality. Furthermore, an adaptive early stopping mechanism dynamically matches computational overhead to the image's complexity. Extensive experiments on multiple benchmarks, including DetailCaps, COMPOSITIONCAP, and POPE, demonstrate that our TDSR, as a plug-and-play module, can significantly enhance the performance of existing VLMs (e.g., LLaVA-1.5, Qwen2.5-VL) by achieving state-of-the-art or highly competitive results in fine-grained description, compositional generalization, and hallucination suppression.
- Abstract(参考訳): 大きな視覚ランゲージモデル(VLM)は、画像キャプションに固有の矛盾に直面している。
これにより、多段階の複雑なシーン記述を必要とするタスクにおいて特に顕著な制限である、豊富な詳細を捉えながら、グローバルな物語コヒーレンスを維持することが困難になる。
この根本的な課題を克服するために、画像キャプションをゴール指向の階層的精錬計画問題として再定義し、さらに、生成プロセスをマルコフ決定プロセス(MDP)としてモデル化したTDSR(Top-Down Semantic Refinement)という新しいフレームワークを提案する。
しかしながら、VLMの広大な状態空間内での計画は、重大な計算ハードルをもたらす。
したがって、我々は、VLMに適した高効率モンテカルロ木探索(MCTS)アルゴリズムの設計に貢献している。
我々のTDSRは、視覚誘導型並列拡張と軽量値ネットワークを組み込むことで、計画品質を犠牲にすることなく、高価なVLMへの呼び出し頻度を桁違いに削減する。
さらに、適応的な早期停止機構は、計算オーバーヘッドと画像の複雑さを動的に一致させる。
DetailCaps, ComposingCAP, POPEなどの多種多様なベンチマーク実験により, 既存のVLM(例えば, LLaVA-1.5, Qwen2.5-VL)の性能を, 詳細な記述, 構成の一般化, 幻覚抑制などにより著しく向上させることが実証された。
関連論文リスト
- VLMPlanner: Integrating Visual Language Models with Motion Planning [18.633637485218802]
VLMPlannerは、学習ベースのリアルタイムプランナと生画像の推論が可能な視覚言語モデル(VLM)を組み合わせたハイブリッドフレームワークである。
我々は,VLMが人間の運転動作を模倣できるコンテキスト適応推論ゲート機構を開発した。
論文 参考訳(メタデータ) (2025-07-27T16:15:21Z) - LVLM-Composer's Explicit Planning for Image Generation [0.0]
LVLM-Composerは,合成画像の高機能化に特化して開発された新しい10ビリオンパラメータスケールLVLMである。
提案手法は,構造化された即時分解のための階層的セマンティック計画モジュールと,生成時の正確な視覚誘導のための細粒度特徴アライメント機構を組み込んだ。
Gemini-2.0-Flash と InternVL3-78B による自動評価を利用した LongBench-T2I ベンチマークの実験では、LVLM-Composer が重要な構成次元にわたって優れた性能を示した。
論文 参考訳(メタデータ) (2025-07-05T20:21:03Z) - CS-VLM: Compressed Sensing Attention for Efficient Vision-Language Representation Learning [0.0]
本稿では,圧縮センシングのレンズによる注意計算を再現する新しいアーキテクチャであるCompressed Sensing Attention Transformer (CSAT)を紹介する。
CSATは、特に時間的冗長度が高いビデオや、モーダルな接地度が低い言語において、視覚的およびテキスト的表現が本質的に圧縮可能であることを生かしている。
論文 参考訳(メタデータ) (2025-06-30T02:11:20Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models [50.98559225639266]
画像全体の意味的関連性が高いサブイメージは、モデルの視覚的理解能力を維持するためによりリッチな視覚情報をカプセル化する。
Global Semantic-Guided Weight Allocator (GSWA)モジュールはその相対情報密度に基づいてサブイメージに重みを割り当てる。
SleighVLは軽量だがハイパフォーマンスなモデルであり、同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合し続けている。
論文 参考訳(メタデータ) (2025-01-24T06:42:06Z) - VmambaIR: Visual State Space Model for Image Restoration [36.11385876754612]
VmambaIRは、画像復元タスクに線形に複雑な状態空間モデル(SSM)を導入する。
VmambaIRは、より少ない計算資源とパラメータで最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2024-03-18T02:38:55Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。