論文の概要: Toward Ambulatory Vision: Learning Visually-Grounded Active View Selection
- arxiv url: http://arxiv.org/abs/2512.13250v1
- Date: Mon, 15 Dec 2025 12:04:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.651616
- Title: Toward Ambulatory Vision: Learning Visually-Grounded Active View Selection
- Title(参考訳): 視覚視覚へ向けて : 視覚領域のアクティブビュー選択を学習する
- Authors: Juil Koo, Daehyeon Choi, Sangwoo Youn, Phillip Y. Lee, Minhyuk Sung,
- Abstract要約: 本稿では、現在の画像の視覚情報のみを用いて、最も情報性の高い次の視点を選択するタスクである、視覚的接地型アクティブビュー選択(VG-AVS)を紹介する。
提案手法は,視点選択に基づく強い質問応答性能を実現し,合成シーンや実シーンに頑健に一般化する。
- 参考スコア(独自算出の注目度): 26.020338338880034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Models (VLMs) excel at visual question answering (VQA) but remain limited to snapshot vision, reasoning from static images. In contrast, embodied agents require ambulatory vision, actively moving to obtain more informative views. We introduce Visually Grounded Active View Selection (VG-AVS), a task that selects the most informative next viewpoint using only the visual information in the current image, without relying on scene memory or external knowledge. To support this task, we construct a synthetic dataset with automatically generated paired query-target views and question-answer prompts. We also propose a framework that fine-tunes pretrained VLMs through supervised fine-tuning (SFT) followed by RL-based policy optimization. Our approach achieves strong question answering performance based on viewpoint selection and generalizes robustly to unseen synthetic and real scenes. Furthermore, incorporating our learned VG-AVS framework into existing scene-exploration-based EQA systems improves downstream question-answering accuracy.
- Abstract(参考訳): 視覚言語モデル (VLMs) は視覚的質問応答 (VQA) に優れるが、静止画像からの推論で視界のスナップショットに限られる。
対照的に、エンボディード・エージェントは、より情報的な視点を得るために活発に動き、増幅視覚を必要とする。
本稿では、シーン記憶や外部知識に頼ることなく、現在の画像の視覚情報のみを用いて、最も情報に富む次の視点を選択するタスクである、視覚的グラウンドドアクティブビュー選択(VG-AVS)を紹介する。
このタスクを支援するために、自動生成されたペアクエリターゲットビューと質問応答プロンプトを備えた合成データセットを構築した。
また、教師付き微調整(SFT)とRLに基づくポリシー最適化により、VLMを微調整するフレームワークを提案する。
提案手法は,視点選択に基づく強い質問応答性能を実現し,合成シーンや実シーンに頑健に一般化する。
さらに、既存のシーン探索ベースのEQAシステムに学習したVG-AVSフレームワークを組み込むことで、下流の質問応答精度が向上する。
関連論文リスト
- Towards Accurate UAV Image Perception: Guiding Vision-Language Models with Stronger Task Prompts [2.3160863001888914]
本稿では,UAV画像認識におけるタスクプロンプト向上のための最初のエージェントフレームワークであるAerialVPを紹介する。
AerialVPは、UAV画像から多次元補助情報を積極的に抽出し、タスクプロンプトを強化する。
AerialSenseは、Aerial Visual Reasoning、Aerial Visual Question Answering、Aerial Visual Groundingタスクを含むUAVイメージ知覚のベンチマークである。
論文 参考訳(メタデータ) (2025-12-08T08:44:57Z) - VoQA: Visual-only Question Answering [7.251596370310251]
本稿では,視覚のみの質問回答(VoQA)を提案する。
これは、視覚的に埋め込まれたテキストの質問を見つけ、認識し、推論するモデルを必要とする。
GRT-SFT(Guid Response Triggering Supervised Fine-tuning)は,視覚的入力に基づくステップバイステップ推論を行うための構造的微調整戦略である。
論文 参考訳(メタデータ) (2025-05-20T11:37:49Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant [48.220285886328746]
本稿では,SQ-LLaVA: Self-Questioning for Large Vision-Language Assistantを提案する。
SQ-LLaVAは、視覚的手がかりと先行言語知識を分析しながら、柔軟で有意義な画像関連質問を生成する能力を示す。
高品質なインストラクションデータに対する微調整SQ-LLaVAは、従来の視覚的インストラクションチューニング手法と比較して性能改善を示す。
論文 参考訳(メタデータ) (2024-03-17T18:42:38Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - Investigating Prompting Techniques for Zero- and Few-Shot Visual Question Answering [6.798129852396113]
本稿では,ゼロおよび少数ショットの視覚質問応答(VQA)性能を向上させる効果的なプロンプト手法について検討する。
特定のテンプレートがVQAの結果に大きく影響し,戦略的テンプレート選択の必要性が強調される。
自由形式のオープンエンドVQA応答を評価する際の課題を軽減するために,簡単なLCM誘導前処理技術を導入する。
論文 参考訳(メタデータ) (2023-06-16T17:47:57Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。