Fugu-MT 論文翻訳(概要): AdaFocus: Knowing When and Where to Look for Adaptive Visual Reasoning

論文の概要: AdaFocus: Knowing When and Where to Look for Adaptive Visual Reasoning

arxiv url: http://arxiv.org/abs/2603.00171v1
Date: Thu, 26 Feb 2026 15:41:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.079087
Title: AdaFocus: Knowing When and Where to Look for Adaptive Visual Reasoning
Title（参考訳）: AdaFocus: 適応型ビジュアル推論の日時と場所を知る
Authors: Yuxiang Shen, Hailong Huang, Zhenkun Gao, Xueheng Li, Chengjun Xie, Xuanhua He, Jie Zhang,
Abstract要約: 適応型視覚推論のためのトレーニングフリーフレームワークであるAdaFocusを提案する。 AdaFocusは2段階のパイプラインに従う。信頼ベースのモジュールはいつ収穫するかを決定し、セマンティック誘導のローカライゼーションモジュールはどこで収穫するかを決定する。実験的に、AdaFocusは、およそ4.0倍のスピードアップを達成しながら、大幅なパフォーマンス向上を実現している。
参考スコア（独自算出の注目度）: 17.455916323311683
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal Large Language Models (MLLMs) are shifting towards "Thinking with Images" by actively exploring image details. While effective, large-scale training is computationally expensive, which has spurred growing interest in lightweight, training-free solutions. However, existing training-free methods suffer from two flaws: perceptual redundancy from indiscriminate cropping, which adds overhead and noise; and a drift between semantic intent and spatial attention, which prevents accurate localization of user-focused regions. To address these challenges, we propose AdaFocus, a novel training-free framework designed for adaptive visual reasoning. AdaFocus follows a two-stage pipeline: a confidence-based module decides when to crop, and a semantic-guided localization module determines where to crop. This enables adaptive visual reasoning without additional training. Experimentally, AdaFocus delivers substantial performance gains while achieving approximately 4.0\times speedup inference speedup than the SOTA method ZoomEyes, representing a significant advance in both accuracy and efficiency.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、画像の詳細を積極的に探求することによって、"Thinking with Images"へと移行している。効果的ではあるが、大規模トレーニングは計算コストが高く、軽量でトレーニング不要なソリューションへの関心が高まっている。しかし、既存のトレーニングフリー手法には、オーバーヘッドとノイズを付加する無差別な収穫による知覚的冗長性(perceptual redundancy)と、ユーザ中心領域の正確な位置決めを防止する意味的意図と空間的注意のドリフトという2つの欠点がある。これらの課題に対処するため、適応的な視覚的推論のために設計された新しいトレーニングフリーフレームワークであるAdaFocusを提案する。 AdaFocusは2段階のパイプラインに従っている。信頼ベースのモジュールはいつ収穫するかを決め、セマンティック誘導のローカライゼーションモジュールはどこで収穫するかを決定する。これにより、追加のトレーニングなしで適応的な視覚的推論が可能になる。実験では、AdaFocusはSOTA法ZoomEyesよりも約4.0\timesの高速化を実現し、精度と効率の両面で大幅に向上した。

関連論文リスト

Emulating Human-like Adaptive Vision for Efficient and Flexible Machine Visual Perception [93.20637973889434]
本稿では、"パッシブ"から"アクティブ"ビジョンモデルへのパラダイムシフトを促進するための一般的なフレームワークであるAdaptiveNNを紹介する。 AdaptiveNNは、視覚知覚を粗い連続的な意思決定プロセスとして定式化する。アダプティブNNは、大規模な視覚認識、きめ細かい識別、視覚検索、実際の運転と医療シナリオからの画像処理を含む、9つのタスクにまたがる17のベンチマークで評価する。
論文参考訳（メタデータ） (2025-09-18T18:25:43Z)
ContextFusion and Bootstrap: An Effective Approach to Improve Slot Attention-Based Object-Centric Learning [53.19029595226767]
スロットアテンションに基づくフレームワークは、オブジェクト指向学習における主要なアプローチとして登場した。現在の手法では、スロットからの再構築を可能にするため、トレーニングを通して安定した特徴空間が必要である。本稿では,既存のスロットアテンションモデルにシームレスに統合可能な新しいContextFusionステージとBootstrapブランチを提案する。
論文参考訳（メタデータ） (2025-09-02T07:19:25Z)
SIFThinker: Spatially-Aware Image Focus for Visual Reasoning [22.922568123298934]
SIFThinkerは、人間の視覚知覚を模倣する空間的に認識可能な「思考とイメージ」フレームワークである。 SIFThinkerは、奥行き強化されたバウンディングボックスと自然言語をインターリーブすることによって、注目の補正と画像領域の強調を可能にする。実験では、SIFThinkerは空間的理解ときめ細かい視覚知覚において最先端の手法より優れている。
論文参考訳（メタデータ） (2025-08-08T12:26:20Z)
VisRL: Intention-Driven Visual Perception via Reinforced Reasoning [22.907814548315468]
本稿では、意図駆動型視覚知覚の問題に強化学習(RL)を適用した最初のフレームワークであるVisRLを提案する。中間焦点選択を試行錯誤によって最適化した内部決定として扱うことにより,コストのかかる領域アノテーションの必要性を解消する。提案手法は強いベースラインを常に上回り,その有効性と,異なるLMM間での強い一般化の両立を実証する。
論文参考訳（メタデータ） (2025-03-10T16:49:35Z)
Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文参考訳（メタデータ） (2025-03-06T03:06:22Z)
SparseFocus: Learning-based One-shot Autofocus for Microscopy with Sparse Content [21.268550523841117]
オートフォーカスは顕微鏡画像における高スループットおよびリアルタイム走査に必要である。最近の学習に基づくアプローチは、ワンショット環境で顕著な効果を示している。 SparseFocusという名前のコンテンツベースのソリューションを提案し、新しい2段階パイプラインを特徴とする。
論文参考訳（メタデータ） (2025-02-10T13:31:32Z)
Learning 1D Causal Visual Representation with De-focus Attention Networks [108.72931590504406]
本稿では,1次元因果モデルを用いた画像表現の実現可能性について検討する。本稿では,学習可能な帯域通過フィルタを用いて様々な注意パターンを生成するDe-focus Attention Networksを提案する。
論文参考訳（メタデータ） (2024-06-06T17:59:56Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
AdaFocus V2: End-to-End Training of Spatial Dynamic Networks for Video Recognition [23.12743642910384]
この研究は、AdaFocusのトレーニングを単純なワンステージアルゴリズムとして再構成する。本稿では,1段階の定式化で導入された問題に対処するための改良されたトレーニング手法を提案する。私たちのモデルは、オリジナルのAdaFocusや他の競争ベースラインを大きく上回っています。
論文参考訳（メタデータ） (2021-12-28T17:53:38Z)
Activation to Saliency: Forming High-Quality Labels for Unsupervised Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文参考訳（メタデータ） (2021-12-07T11:54:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。