論文の概要: T2T-VICL: Unlocking the Boundaries of Cross-Task Visual In-Context Learning via Implicit Text-Driven VLMs
- arxiv url: http://arxiv.org/abs/2511.16107v1
- Date: Thu, 20 Nov 2025 07:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.509383
- Title: T2T-VICL: Unlocking the Boundaries of Cross-Task Visual In-Context Learning via Implicit Text-Driven VLMs
- Title(参考訳): T2T-VICL: テキスト駆動VLMによるクロスタスクビジュアルインコンテキスト学習の境界の解き方
- Authors: Shao-Jun Xia, Huixin Zhang, Zhengzhong Tu,
- Abstract要約: 大規模言語モデル (LLM) では、インコンテキスト学習 (ICL) は入力コンテキストで提供される小さなデモを条件付けして新しいタスクを実行する。
ビジュアル・イン・コンテクスト・ラーニング(VICL)の最近の進歩は、統合視覚言語モデル(VLM)による下流タスクの解決に期待できる能力を示している。
- 参考スコア(独自算出の注目度): 15.649508617993538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In large language models (LLM), in-context learning (ICL) refers to performing new tasks by conditioning on small demonstrations provided in the input context. Recent advances in visual in-context learning (VICL) demonstrate promising capabilities for solving downstream tasks by unified vision-language models (VLMs). When the visual prompt and the target images originate from different visual tasks, can VLMs still enable VICL? In the paper, we propose a fully collaborative pipeline, i.e. T2T-VICL, for VLMs to investigate the potential of cross-task VICL. Fundamentally, we design a mechanism to generate and select text prompts that best implicitly describe the differences between two distinct low-level vision tasks, and construct the first cross-task VICL dataset. Building upon this, we propose a novel inference framework that combines perceptual score-based reasoning with traditional evaluation metrics to perform cross-task VICL. Our approach achieves top-tier results across nine cross-task scenarios and second-tier performance in ten additional scenarios, unlocking the boundaries of cross-task VICL within VLMs.
- Abstract(参考訳): 大規模言語モデル (LLM) では、インコンテキスト学習 (ICL) は入力コンテキストで提供される小さなデモを条件付けして新しいタスクを実行する。
近年のビジュアル・イン・コンテクスト・ラーニング(VICL)は、視覚言語モデル(VLM)による下流タスクの解決に有望な能力を示している。
視覚的プロンプトと対象画像が異なる視覚的タスクに由来する場合、VLMは依然としてVICLを有効化できるだろうか?
本稿では,VLMにおけるクロスタスクVICLの可能性を検討するために,完全に協調的なパイプラインであるT2T-VICLを提案する。
基本的には、2つの異なる低レベル視覚タスクの違いを暗黙的に記述するテキストプロンプトを生成して選択する機構を設計し、最初のクロスタスクVICLデータセットを構築する。
そこで本研究では,従来の評価指標と知覚的スコアに基づく推論を組み合わせ,クロスタスクVICLを実現する新しい推論フレームワークを提案する。
提案手法は,9つのクロスタスクシナリオにおけるトップレベル結果と2層性能を10の追加シナリオで達成し,VLM内のクロスタスクVICLの境界を開放する。
関連論文リスト
- TRANSPORTER: Transferring Visual Semantics from VLM Manifolds [56.749972238005604]
本稿では,ビデオ生成のためのモデルに依存しないアプローチであるTransportERとともに,ロジット・トゥ・ビデオ(L2V)タスクを提案する。
TransporterはVLMの高セマンティック埋め込み空間への最適輸送結合を学習する。
代わりに、ロジットスコアは条件付きビデオ生成のための埋め込み方向を定義する。
論文 参考訳(メタデータ) (2025-11-23T09:12:48Z) - 4th PVUW MeViS 3rd Place Report: Sa2VA [105.88675577642204]
より強力なMLLM上でのテスト時間推定法を簡易に修正することで,MeVISのより強力な結果が得られることを示す。
特に,画像とビデオの密接な理解のための統一モデルである,最近のSa2VAを採用する。
論文 参考訳(メタデータ) (2025-04-01T07:06:47Z) - Test-Time Visual In-Context Tuning [85.62916644835902]
ビジュアル・イン・コンテキスト・ラーニング(VICL)は、いくつかのプロンプトと例だけで、モデルが様々なタスクに迅速に適応できるようにする。
効果はあるものの、既存のVICLパラダイムは分布シフトの下での一般化性が劣っている。
VICT(Test-time Visual In-Context Tuning)は、1つのテストサンプルでVICLモデルをオンザフライで適用できる手法である。
論文 参考訳(メタデータ) (2025-03-27T17:59:52Z) - Advancing Prompt Learning through an External Layer [24.77977865016954]
本稿では,新しい外部層(EnLa)を備えたEnPromptというパラダイムを提案する。
学習可能な外部レイヤは、トレーニング済みのCLIPの有効な埋め込みに基づいて構築される。
4つの実験により,本手法が既存の即時学習法より優れていることが示された。
論文 参考訳(メタデータ) (2024-07-29T03:30:09Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Visual In-Context Learning for Large Vision-Language Models [62.5507897575317]
大規模視覚言語モデル(LVLM)では、言語間相互作用や表現格差の課題により、ICL(In-Context Learning)の有効性が制限されている。
本稿では,視覚的記述型検索,意図的画像要約,意図的記述型合成を含む新しい視覚的記述型学習(VICL)手法を提案する。
提案手法は'Retrieval & Rerank'パラダイムを用いて画像を検索し,タスク意図とタスク固有の視覚的パーシングで画像を要約し,言語による実演を構成する。
論文 参考訳(メタデータ) (2024-02-18T12:43:38Z) - Text as Images: Can Multimodal Large Language Models Follow Printed Instructions in Pixels? [158.96530466189986]
マルチモーダルな大規模言語モデル (MLLM) は、視覚言語タスクにおいて有望な命令に従う能力を示している。
我々は,事前学習や微調整において,そのようなデータに対して明示的に訓練されていないにもかかわらず,画素内のテキスト命令をマルチモーダルモデルでどの程度理解できるかを検討する。
我々は、テキストモダリティと視覚モダリティの両方で、堅牢な指示を実行できる一般化可能なモデルであるv-MLLMを訓練する。
論文 参考訳(メタデータ) (2023-11-29T14:08:53Z) - Seeing What You Miss: Vision-Language Pre-training with Semantic
Completion Learning [22.464424641734652]
クロスモーダルアライメントは視覚言語事前学習モデルに不可欠である。
本研究では,グローバル・ローカル・アライメントを支援するセマンティック・コンプリート学習タスクを提案する。
また、フレキシブル・ビジョン・エンコーダを導入し、画像テキストとビデオテキストのマルチモーダルタスクを同時に実行できるようにした。
論文 参考訳(メタデータ) (2022-11-24T06:39:16Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object
Knowledge Distillation [42.01427946204401]
自己教師付きビジョン・アンド・ランゲージ事前学習は,大規模な画像テキストデータから伝達可能なマルチモーダル表現を学習することを目的としている。
本稿では,CNN から Transformer へのイメージグリッド機能を直接供給し,マルチモーダル表現を協調的に学習するオブジェクト認識型エンドツーエンド QF フレームワークを提案する。
そこで我々は,オブジェクトの特徴とその意味的ラベルを外部検知器から監視することで,2つの新しいプリテキストタスクを設計する。
論文 参考訳(メタデータ) (2021-09-22T03:38:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。