論文の概要: From Static to Interactive: Adapting Visual in-Context Learners for User-Driven Tasks
- arxiv url: http://arxiv.org/abs/2604.06748v1
- Date: Wed, 08 Apr 2026 07:13:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.386676
- Title: From Static to Interactive: Adapting Visual in-Context Learners for User-Driven Tasks
- Title(参考訳): 静的からインタラクティブへ:ユーザ駆動タスクに視覚的インテクスト学習者を適用する
- Authors: Carlos Schmidt, Simon Reiß,
- Abstract要約: 我々は静的な視覚的インコンテキスト学習者をユーザ駆動システム、すなわちInteractive DeLVMに変換する。
本研究は,ユーザ中心のビジュアルインコンテキスト学習における静的タスク適応と流体相互作用のギャップを埋めるものである。
- 参考スコア(独自算出の注目度): 5.208702297063032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual in-context learning models are designed to adapt to new tasks by leveraging a set of example input-output pairs, enabling rapid generalization without task-specific fine-tuning. However, these models operate in a fundamentally static paradigm: while they can adapt to new tasks, they lack any mechanism to incorporate user-provided guidance signals such as scribbles, clicks, or bounding boxes to steer or refine the prediction process. This limitation is particularly restrictive in real-world applications, where users want to actively guide model predictions, e.g., by highlighting the target object for segmentation, indicating a region which should be visually altered, or isolating a specific person in a complex scene to run targeted pose estimation. In this work, we propose a simple method to transform static visual in-context learners, particularly the DeLVM approach, into highly controllable, user-driven systems, i.e., Interactive DeLVM, enabling seamless interaction through natural visual cues such as scribbles, clicks, or drawing boxes. Specifically, by encoding interactions directly into the example input-output pairs, we keep the philosophy of visual in-context learning intact: enabling users to prompt models with unseen interactions without fine-tuning and empowering them to dynamically steer model predictions with personalized interactions. Our experiments demonstrate that SOTA visual in-context learning models fail to effectively leverage interaction cues, often ignoring user guidance entirely. In contrast, our method excels in controllable, user-guided scenarios, achieving improvements of $+7.95%$ IoU for interactive segmentation, $+2.46$ PSNR for directed super-resolution, and $-3.14%$ LPIPS for interactive object removal. With this, our work bridges the gap between rigid static task adaptation and fluid interactivity for user-centric visual in-context learning.
- Abstract(参考訳): ビジュアル・イン・コンテキスト学習モデルは,一組のインプット・アウトプット・ペアを活用することで,タスク固有の微調整を伴わずに迅速な一般化を実現することで,新しいタスクに適応するように設計されている。
しかし、これらのモデルは基本的に静的なパラダイムで動作し、新しいタスクに適応できるが、スクリブルやクリック、バウンディングボックスなどのユーザが提供するガイダンスシグナルを組み込んで予測プロセスを操ったり洗練したりするためのメカニズムが欠如している。
この制限は、特に現実世界のアプリケーションでは限定的であり、例えば、ユーザーがターゲットのオブジェクトにセグメンテーションをハイライトし、視覚的に変更すべき領域を示すか、複雑なシーンで特定の人物を分離してターゲットのポーズ推定を実行することで、モデル予測を積極的にガイドしたいと願っている。
本研究では,静的な視覚的インコンテキスト学習者,特にDeLVMアプローチを高度に制御可能なユーザ駆動システム,すなわちインタラクティブなDeLVMに変換するための簡単な手法を提案する。
具体的には、対話を直接入力-出力ペアにエンコードすることで、視覚的インコンテキスト学習の哲学をそのまま保ちます。
我々の実験では,SOTAビジュアル・イン・コンテクスト学習モデルではインタラクション・キューを効果的に活用することができず,ユーザ・ガイダンスを完全に無視することが多い。
対照的に,本手法は制御可能なユーザ誘導シナリオに優れ,対話型セグメンテーションに$+7.95%$IoU,指向型超解像に$+2.46$PSNR,対話型オブジェクト除去に$3.14%$LPIPSを達成している。
これにより、ユーザ中心のビジュアルインコンテキスト学習のための静的な静的タスク適応と流体相互作用のギャップを埋める。
関連論文リスト
- Athanor: Authoring Action Modification-based Interactions on Static Visualizations via Natural Language [9.92682960014568]
Athanorは、マルチモーダルな大規模言語モデルと自然言語命令を使用して、既存の静的視覚化をインタラクティブなものに変換する、新しいアプローチである。
Athanorを使えば、自然言語の命令で対話を書けるようになり、プログラミングの必要がなくなる。
論文 参考訳(メタデータ) (2026-01-25T08:08:42Z) - Personalized Vision via Visual In-Context Learning [62.85784251383279]
パーソナライズされた視覚のためのビジュアル・イン・コンテキスト・ラーニング・フレームワークを提案する。
PICOは基盤となる変換を推測し、再トレーニングせずに新しい入力に適用する。
また,効率的な推論スケーリングによる信頼性向上を目的とした注意誘導型シードスコアラを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:58:45Z) - Precise Action-to-Video Generation Through Visual Action Prompts [62.951609704196485]
アクション駆動のビデオ生成は、精度と一般性のトレードオフに直面している。
エージェント中心のアクション信号は、クロスドメイン転送可能性のコストで精度を提供する。
私たちはアクションをドメインに依存しない表現として正確に視覚的なプロンプトに"レンダリング"します。
論文 参考訳(メタデータ) (2025-08-18T17:12:28Z) - Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。
既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。
本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-23T12:30:19Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。
未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。
まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。
インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文 参考訳(メタデータ) (2024-12-02T08:16:38Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。