論文の概要: Glance-or-Gaze: Incentivizing LMMs to Adaptively Focus Search via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.13942v1
- Date: Tue, 20 Jan 2026 13:18:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.321715
- Title: Glance-or-Gaze: Incentivizing LMMs to Adaptively Focus Search via Reinforcement Learning
- Title(参考訳): Glance-or-Gaze:強化学習による検索に適応するLMMのインセンティブ
- Authors: Hongbo Bai, Yujin Zhou, Yile Wu, Chi-Min Chan, Pengcheng Wen, Kunhao Pan, Sirui Han, Yike Guo,
- Abstract要約: Glance-or-Gaze(GG)は、受動的知覚からアクティブな視覚計画に移行する、完全に自律的なフレームワークである。
GoGはSelective Gazeメカニズムを導入し、グローバルコンテキストを視認するか、あるいは高価値領域を視認するかを動的に選択する。
6つのベンチマークの実験は、最先端のパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 23.227328832902632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) have achieved remarkable success in visual understanding, yet they struggle with knowledge-intensive queries involving long-tail entities or evolving information due to static parametric knowledge. Recent search-augmented approaches attempt to address this limitation, but existing methods rely on indiscriminate whole-image retrieval that introduces substantial visual redundancy and noise, and lack deep iterative reflection, limiting their effectiveness on complex visual queries. To overcome these challenges, we propose Glance-or-Gaze (GoG), a fully autonomous framework that shifts from passive perception to active visual planning. GoG introduces a Selective Gaze mechanism that dynamically chooses whether to glance at global context or gaze into high-value regions, filtering irrelevant information before retrieval. We design a dual-stage training strategy: Reflective GoG Behavior Alignment via supervised fine-tuning instills the fundamental GoG paradigm, while Complexity-Adaptive Reinforcement Learning further enhances the model's capability to handle complex queries through iterative reasoning. Experiments across six benchmarks demonstrate state-of-the-art performance. Ablation studies confirm that both Selective Gaze and complexity-adaptive RL are essential for effective visual search. We will release our data and models for further exploration soon.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は視覚的理解において顕著な成功を収めてきたが、長い尾を持つエンティティや静的パラメトリック知識による情報進化を伴う知識集約的なクエリに苦慮している。
近年の検索強化アプローチでは,この制限に対処する試みがなされているが,既存の手法では,大きな視覚的冗長性やノイズを伴い,深い反復反射が欠如しており,複雑な視覚的クエリの有効性が制限されている。
これらの課題を克服するために、受動的知覚からアクティブな視覚計画に移行する完全に自律的なフレームワークであるGlance-or-Gaze(GoG)を提案する。
GoGはSelective Gazeメカニズムを導入し、グローバルなコンテキストを見つめるか、高価値領域を見つめるかを動的に選択し、検索前に無関係な情報をフィルタリングする。
教師付き微調整による反射型GoG行動アライメントは、基本的なGoGパラダイムを具現化し、複雑度適応型強化学習は、反復的推論を通じて複雑なクエリを処理するモデルの能力をさらに強化する。
6つのベンチマークの実験は、最先端のパフォーマンスを示している。
アブレーション研究により、選択的迷路と複雑性適応的RLの両方が効果的な視覚探索に不可欠であることが確認された。
近いうちに、さらなる調査のためにデータとモデルを公開します。
関連論文リスト
- Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。
EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。
EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文 参考訳(メタデータ) (2025-12-23T08:14:44Z) - Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning [79.34909830834464]
VLM(Vision-Language Models)は様々な視覚的タスクで顕著な成功を収めているが、複雑な視覚環境では性能が低下している。
視覚的複雑性は、注意エントロピーと強く相関し、推論性能に悪影響を及ぼすことを示す。
本稿では,CARVE(Contrastive Attention Refinement for Visual Enhancement)を提案する。
論文 参考訳(メタデータ) (2025-09-08T09:20:04Z) - VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning [45.39372905700317]
視覚的に豊かな情報にまたがる複雑な推論に適した新しいRLフレームワークであるVRAG-RLを紹介する。
このフレームワークにより、VLMは検索エンジンと相互作用し、シングルターンまたはマルチターン推論軌道を自律的にサンプリングする。
我々のアプローチは、RAGドメインにおけるRLの重要な制限を強調します。
論文 参考訳(メタデータ) (2025-05-28T06:30:51Z) - ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents [27.90338725230132]
ViDoSeekは複雑な推論を必要とする視覚的にリッチなドキュメント上でのRAGパフォーマンスを評価するために設計されたデータセットである。
視覚文書間の複雑な推論に適した新しいマルチエージェントRAGフレームワークであるViDoRAGを提案する。
特にViDoRAGは、競合するViDoSeekベンチマークで既存のメソッドを10%以上上回っている。
論文 参考訳(メタデータ) (2025-02-25T09:26:12Z) - Sliding Puzzles Gym: A Scalable Benchmark for State Representation in Visual Reinforcement Learning [3.8309622155866583]
Sliding Puzzles Gym (SPGym) は、従来の8タイルパズルを任意に大きなデータセットから描画された画像で視覚的強化学習タスクに変換する新しいベンチマークである。
SPGymの重要な革新は、調整可能なグリッドサイズとイメージプールによって表現学習の複雑さを正確に制御できることである。
論文 参考訳(メタデータ) (2024-10-17T21:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。