論文の概要: Conditional Representation Learning for Customized Tasks
- arxiv url: http://arxiv.org/abs/2510.04564v1
- Date: Mon, 06 Oct 2025 08:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.740919
- Title: Conditional Representation Learning for Customized Tasks
- Title(参考訳): カスタマイズタスクのための条件表現学習
- Authors: Honglin Liu, Chao Sun, Peng Hu, Yunfan Li, Xi Peng,
- Abstract要約: 動物生息地分析において、研究者はシーンに関連した特徴を優先する一方、普遍的な埋め込みはカテゴリー的意味論を強調する。
既存のアプローチは教師付き微調整に頼っているが、高い計算とアノテーションのコストがかかる。
本研究では,任意のユーザ指定基準に適合した表現を抽出することを目的とした条件表現学習(CRL)を提案する。
- 参考スコア(独自算出の注目度): 28.04518345573481
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Conventional representation learning methods learn a universal representation that primarily captures dominant semantics, which may not always align with customized downstream tasks. For instance, in animal habitat analysis, researchers prioritize scene-related features, whereas universal embeddings emphasize categorical semantics, leading to suboptimal results. As a solution, existing approaches resort to supervised fine-tuning, which however incurs high computational and annotation costs. In this paper, we propose Conditional Representation Learning (CRL), aiming to extract representations tailored to arbitrary user-specified criteria. Specifically, we reveal that the semantics of a space are determined by its basis, thereby enabling a set of descriptive words to approximate the basis for a customized feature space. Building upon this insight, given a user-specified criterion, CRL first employs a large language model (LLM) to generate descriptive texts to construct the semantic basis, then projects the image representation into this conditional feature space leveraging a vision-language model (VLM). The conditional representation better captures semantics for the specific criterion, which could be utilized for multiple customized tasks. Extensive experiments on classification and retrieval tasks demonstrate the superiority and generality of the proposed CRL. The code is available at https://github.com/XLearning-SCU/2025-NeurIPS-CRL.
- Abstract(参考訳): 従来の表現学習方法は、主に支配的な意味論を捉えた普遍的な表現を学習する。
例えば、動物生息地分析において、研究者はシーンに関連した特徴を優先する一方、普遍的な埋め込みはカテゴリー的意味論を強調し、最適以下の結果をもたらす。
解決策として、既存のアプローチでは教師付き微調整に頼っているが、高い計算とアノテーションのコストが発生する。
本稿では,任意のユーザ指定基準に適合した表現の抽出を目的とした条件表現学習(CRL)を提案する。
具体的には、空間のセマンティクスがその基底によって決定されていることを明らかにし、それによって、記述的な単語の集合が、カスタマイズされた特徴空間の基底を近似することができる。
この知見に基づいて、CRLはまず大きな言語モデル(LLM)を用いて、意味ベースを構築するための記述的テキストを生成し、次に視覚言語モデル(VLM)を利用した条件付き特徴空間に画像表現を投影する。
条件表現は、複数のカスタマイズされたタスクに使用できる特定の基準のセマンティクスをよりよくキャプチャする。
分類と検索タスクに関する大規模な実験は、提案したCRLの優越性と一般性を示している。
コードはhttps://github.com/XLearning-SCU/2025-NeurIPS-CRLで公開されている。
関連論文リスト
- Hierarchical Representation Matching for CLIP-based Class-Incremental Learning [80.2317078787969]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、進化するデータストリームに継続的に適応可能なモデルを提供することを目的とする。
事前訓練された視覚言語モデル(例えばCLIP)の最近の進歩は、このタスクの強力な基盤を提供する。
本稿では,CLIPベースのCILのためのHiErarchical Representation MAtchiNg(HERMAN)を紹介する。
論文 参考訳(メタデータ) (2025-09-26T17:59:51Z) - KITE: Kernelized and Information Theoretic Exemplars for In-Context Learning [30.471243464952625]
In-context Learning (ICL) は、大規模言語モデルを新しいデータに適応するための強力なパラダイムとして登場した。
本稿では,ICLにおけるサンプル選択の問題について,情報理論の原則的視点から検討する。
我々は,近似保証付きグリーディアルゴリズムを有効活用する,約部分モジュラーの原理的サロゲート目的を導出する。
論文 参考訳(メタデータ) (2025-09-19T06:50:03Z) - RecBase: Generative Foundation Model Pretraining for Zero-Shot Recommendation [78.01030342481246]
RecBaseは、レコメンデーション指向の目的によって事前訓練されたドメインに依存しない基礎モデルである。
アイテムを階層的な概念識別子にエンコードする統一されたアイテムトークンを導入します。
我々のモデルは、ゼロショットおよびクロスドメインレコメンデーションタスクにおいて、LLMのベースラインの最大7Bパラメータのパフォーマンスを一致または超過します。
論文 参考訳(メタデータ) (2025-09-03T08:33:43Z) - Referring Expression Instance Retrieval and A Strong End-to-End Baseline [37.47466772169063]
テキスト画像検索は、画像レベルの記述に基づいてギャラリーからターゲット画像を取得する。
Referring Expressionは、インスタンスレベルの記述を使用して、所定のイメージ内でターゲットオブジェクトをローカライズする。
我々は、インスタンスレベルの検索とローカライゼーションの両方をサポートする textbfReferring Expression Instance Retrieval (REIR) という新しいタスクを導入する。
論文 参考訳(メタデータ) (2025-06-23T02:28:44Z) - Self-Regularization with Sparse Autoencoders for Controllable LLM-based Classification [29.74457390987092]
大規模言語モデル(LLM)潜在空間における意図しない特徴を特定し,規則化する新しいフレームワークを提案する。
本稿では,有毒なチャット検出,報酬モデリング,疾患診断を含む3つの実世界の課題に関する枠組みについて検討する。
論文 参考訳(メタデータ) (2025-02-19T22:27:59Z) - Organizing Unstructured Image Collections using Natural Language [37.16101036513514]
大規模で非構造化画像コレクションからクラスタリング基準を自動的に検出することを目的としたOpen-ended Semantic Multiple Clustering (OpenSMC) の課題を紹介する。
当社のフレームワークであるX-Cluster: eXploratory Clusteringは、テキストを推論プロキシとして扱い、画像を基準毎に意味のあるクラスタにグループ化する。
X-Clusterは意味のあるパーティションを効果的に公開し、バイアス発見やソーシャルメディア画像人気分析などの下流アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-10-07T17:21:46Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。