論文の概要: Learning What Helps: Task-Aligned Context Selection for Vision Tasks
- arxiv url: http://arxiv.org/abs/2512.00489v1
- Date: Sat, 29 Nov 2025 13:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.263773
- Title: Learning What Helps: Task-Aligned Context Selection for Vision Tasks
- Title(参考訳): 何を支援するかを学ぶ:視覚タスクのためのタスク指向コンテキスト選択
- Authors: Jingyu Guo, Emir Konuk, Fredrik Strand, Christos Matsoukas, Kevin Smith,
- Abstract要約: タスク指向コンテキスト選択(TACS)は,タスク性能を真に向上するペア化された例を選択することを学習するフレームワークである。
詳細な認識、医用画像分類、医用画像のセグメンテーションを含む18のデータセットにおいて、TACSは相似性に基づく検索を一貫して上回っている。
- 参考スコア(独自算出の注目度): 2.4042960319977316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans often resolve visual uncertainty by comparing an image with relevant examples, but ViTs lack the ability to identify which examples would improve their predictions. We present Task-Aligned Context Selection (TACS), a framework that learns to select paired examples which truly improve task performance rather than those that merely appear similar. TACS jointly trains a selector network with the task model through a hybrid optimization scheme combining gradient-based supervision and reinforcement learning, making retrieval part of the learning objective. By aligning selection with task rewards, TACS enables discriminative models to discover which contextual examples genuinely help. Across 18 datasets covering fine-grained recognition, medical image classification, and medical image segmentation, TACS consistently outperforms similarity-based retrieval, particularly in challenging or data-limited settings.
- Abstract(参考訳): 人間は画像と関連する例を比較することで視覚的不確実性を解決することが多いが、ViTはどの例が予測を改善するかを識別する能力がない。
タスク指向コンテキスト選択(TACS: Task-Aligned Context Selection)は、単に類似しているように見えるものよりも、タスクパフォーマンスを真に改善するペア化された例を選択することを学ぶフレームワークである。
TACSは、勾配に基づく監督と強化学習を組み合わせたハイブリッド最適化手法により、タスクモデルとセレクタネットワークを共同で訓練し、学習目的の検索を行う。
タスク報酬に選択を合わせることで、TACSは識別モデルによって、どのコンテキストの例が真に役に立つかを発見できる。
詳細な認識、医用画像の分類、医用画像のセグメンテーションを含む18のデータセットにおいて、TACSは、特に挑戦的、あるいはデータ限定的な設定において、常に類似性に基づく検索を上回っている。
関連論文リスト
- Which Direction to Choose? An Analysis on the Representation Power of Self-Supervised ViTs in Downstream Tasks [43.473390101413166]
視覚変換のための自己監督学習(ViTs)は、近年、様々なコンピュータビジョンタスクの事前学習戦略としてかなりの可能性を示している。
本研究の目的は,画像分類とセグメント化タスクにまたがる未修正特徴の使用を体系的に評価することで,ギャップを埋めることである。
論文 参考訳(メタデータ) (2025-09-18T11:46:07Z) - Picking the Cream of the Crop: Visual-Centric Data Selection with Collaborative Agents [62.616106562146776]
textbfVisual-Centric textbfSelection approach by textbfAgents Collaboration (ViSA)を提案する。
提案手法は,(1)視覚エージェントの協調による画像情報定量化手法により,リッチな視覚情報を持つ画像を選択する方法,(2)高品質な画像に関連する高品質な画像を選択する視覚中心の指示品質評価手法からなる。
論文 参考訳(メタデータ) (2025-02-27T09:37:30Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。
しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文 参考訳(メタデータ) (2024-03-01T09:01:53Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z) - Improving Long-tailed Object Detection with Image-Level Supervision by
Multi-Task Collaborative Learning [18.496765732728164]
マルチタスク協調方式において,画像レベルの監視を活用して検出能力を向上する新しいフレームワークCLISを提案する。
CLISは、テールカテゴリーを10.1ポイント改善した31.1のAPを達成し、新しい最先端技術を確立した。
論文 参考訳(メタデータ) (2022-10-11T16:02:14Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Revisiting Contrastive Learning for Few-Shot Classification [74.78397993160583]
インスタンス識別に基づくコントラスト学習は,視覚表現の自己教師あり学習の指導的アプローチとして現れてきた。
本稿では,インスタンス識別に基づくコントラスト型自己教師付き学習フレームワークにおいて,新しいタスクを一般化する表現を学習する方法を示す。
提案手法は,cidを用いて訓練された普遍的埋め込みと組み合わせて,挑戦的メタデータセットベンチマークにおいて最先端アルゴリズムよりも優れる新しいモデル選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-26T19:58:08Z) - On Mutual Information in Contrastive Learning for Visual Representations [19.136685699971864]
視覚における「対照的」学習アルゴリズムは、伝達タスクにおいて非常によく機能する表現を学ぶために示されている。
このアルゴリズムの族は、画像の2つ以上の「ビュー」間の相互情報の低境界を最大化する。
負のサンプルとビューの選択は、これらのアルゴリズムの成功に不可欠である。
論文 参考訳(メタデータ) (2020-05-27T04:21:53Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。