論文の概要: Is Visual in-Context Learning for Compositional Medical Tasks within Reach?
- arxiv url: http://arxiv.org/abs/2507.00868v2
- Date: Wed, 02 Jul 2025 09:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.700954
- Title: Is Visual in-Context Learning for Compositional Medical Tasks within Reach?
- Title(参考訳): 構成的医療課題に対する視覚的インテクスト学習はリーチ内で行われるか?
- Authors: Simon Reiß, Zdravko Marinov, Alexander Jaus, Constantin Seibold, M. Saquib Sarfraz, Erik Rodner, Rainer Stiefelhagen,
- Abstract要約: 本稿では、1つのモデルで複数のタスクを処理できるビジュアル・イン・コンテキスト・ラーニングの可能性について検討する。
本稿では,合成合成タスク生成エンジンを用いたコンテキスト内学習者の学習方法を提案する。
- 参考スコア(独自算出の注目度): 68.56630652862293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore the potential of visual in-context learning to enable a single model to handle multiple tasks and adapt to new tasks during test time without re-training. Unlike previous approaches, our focus is on training in-context learners to adapt to sequences of tasks, rather than individual tasks. Our goal is to solve complex tasks that involve multiple intermediate steps using a single model, allowing users to define entire vision pipelines flexibly at test time. To achieve this, we first examine the properties and limitations of visual in-context learning architectures, with a particular focus on the role of codebooks. We then introduce a novel method for training in-context learners using a synthetic compositional task generation engine. This engine bootstraps task sequences from arbitrary segmentation datasets, enabling the training of visual in-context learners for compositional tasks. Additionally, we investigate different masking-based training objectives to gather insights into how to train models better for solving complex, compositional tasks. Our exploration not only provides important insights especially for multi-modal medical task sequences but also highlights challenges that need to be addressed.
- Abstract(参考訳): 本稿では,複数のタスクを1つのモデルで処理し,テスト時間内に新しいタスクに適応できる視覚的コンテキスト内学習の可能性について検討する。
従来のアプローチとは異なり、個々のタスクではなく、タスクのシーケンスに適応するようにコンテキスト内学習者のトレーニングに重点を置いています。
私たちのゴールは、1つのモデルを使って複数の中間ステップを含む複雑なタスクを解決し、ユーザーがテスト時に柔軟にビジョンパイプライン全体を定義できるようにすることです。
これを実現するために、まず、コードブックの役割に特に焦点をあて、視覚的コンテキスト内学習アーキテクチャの特性と限界について検討する。
次に,合成合成タスク生成エンジンを用いたコンテキスト内学習者の学習方法を提案する。
このエンジンは任意のセグメンテーションデータセットからタスクシーケンスをブートストラップし、コンポジションタスクのための視覚的インコンテキスト学習者のトレーニングを可能にする。
さらに,複雑な構成課題を解決するために,様々なマスキングに基づくトレーニング目標を調査し,モデルのトレーニング方法に関する知見を収集する。
特にマルチモーダルな医療タスクシーケンスにおいて重要な洞察を提供するだけでなく、対処すべき課題も浮き彫りにしている。
関連論文リスト
- In-context Learning in Presence of Spurious Correlations [8.055478206164105]
本研究では,突発的特徴を含む分類課題に対して,文脈内学習者を訓練する可能性について検討する。
従来の文脈内学習者の訓練手法は、刺激的な特徴に影響を受けやすいことが判明した。
与えられた分類タスクに対して,そのような学習者を訓練するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:26:36Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Prompt Tuning with Soft Context Sharing for Vision-Language Models [42.61889428498378]
本稿では,複数目的の複数ショットタスクにおいて,事前学習した視覚言語モデルを協調的にチューニングする新しい手法を提案する。
我々は,SoftCPTがシングルタスクのプロンプトチューニング方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-29T10:19:10Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering [43.07139534653485]
タスク対応マルチタスクフレームワークAnswer-Meを提案する。
マルチタスクである視覚言語ジョイントモデルを事前訓練する。
その結果、最先端のパフォーマンス、ゼロショットの一般化、忘れることへの堅牢性、競争力のあるシングルタスクの結果が示された。
論文 参考訳(メタデータ) (2022-05-02T14:53:13Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Adversarial Continual Learning [99.56738010842301]
本稿では,タスク不変およびタスク特化機能に対する不整合表現を学習するハイブリッド連続学習フレームワークを提案する。
本モデルでは,タスク固有のスキルの忘れを防止するためにアーキテクチャの成長と,共有スキルを維持するための経験的リプレイアプローチを組み合わせる。
論文 参考訳(メタデータ) (2020-03-21T02:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。