Fugu-MT 論文翻訳(概要): Troika: Multi-Path Cross-Modal Traction for Compositional Zero-Shot Learning

論文の概要: Troika: Multi-Path Cross-Modal Traction for Compositional Zero-Shot Learning

arxiv url: http://arxiv.org/abs/2303.15230v1
Date: Mon, 27 Mar 2023 14:10:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-28 15:06:25.691735
Title: Troika: Multi-Path Cross-Modal Traction for Compositional Zero-Shot Learning
Title（参考訳）: Troika: 合成ゼロショット学習のためのマルチパスクロスモーダルトラクション
Authors: Siteng Huang, Biao Gong, Yutong Feng, Yiliang Lv, Donglin Wang
Abstract要約: 近年のコンポジションゼロショット学習 (CZSL) 法は, コンポジションオブジェクト対にのみトレーニング可能なプロンプトを構築することで, 事前学習された視覚言語モデル (VLM) に適応している。 CZSLモデルのための新しいパラダイムを提案し、状態、対象、構成を協調的にモデル化する3つの識別分岐(Multi-Path)を確立する。提案手法は,クローズドワールドとオープンワールドの両設定において,既存の手法を著しく上回っている。
参考スコア（独自算出の注目度）: 21.4810378514903
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent compositional zero-shot learning (CZSL) methods adapt pre-trained vision-language models (VLMs) by constructing trainable prompts only for composed state-object pairs. Relying on learning the joint representation of seen compositions, these methods ignore the explicit modeling of the state and object, thus limiting the exploitation of pre-trained knowledge and generalization to unseen compositions. With a particular focus on the universality of the solution, in this work, we propose a novel paradigm for CZSL models that establishes three identification branches (i.e., Multi-Path) to jointly model the state, object, and composition. The presented Troika is our implementation that aligns the branch-specific prompt representations with decomposed visual features. To calibrate the bias between semantically similar multi-modal representations, we further devise a Cross-Modal Traction module into Troika that shifts the prompt representation towards the current visual content. We conduct extensive experiments on three popular benchmarks, where our method significantly outperforms existing methods in both closed-world and open-world settings.
Abstract（参考訳）: 近年のコンポジションゼロショット学習 (CZSL) 法は, コンポジションオブジェクト対にのみトレーニング可能なプロンプトを構築することで, 事前学習された視覚言語モデル (VLM) に適応している。これらの手法は、目に見える構成の合同表現を学習することで、状態と対象の明示的なモデリングを無視し、事前学習された知識の活用と一般化を目に見えない構成に制限する。本稿では, 解の普遍性に着目し, 状態, 対象, 構成を協調的にモデル化する3つの識別枝(すなわちマルチパス)を確立するczslモデルのための新しいパラダイムを提案する。提示されたTroikaは、ブランチ固有のプロンプト表現と分解された視覚的特徴を一致させる実装です。意味的に類似するマルチモーダル表現間のバイアスを校正するため、我々はさらにクロスモーダルトラクションモジュールをトロイカに考案し、プロンプト表現を現在の視覚コンテンツにシフトさせる。提案手法は,クローズドワールドとオープンワールドの両設定において,既存の手法を著しく上回っている。

関連論文リスト

ProtoConNet: Prototypical Augmentation and Alignment for Open-Set Few-Shot Image Classification [5.281661190732358]
オープンセットの少数ショット画像分類は、少量のラベル付きデータを使ってモデルを訓練することを目的としている。 ProtoConNetでは、さまざまなサンプルのバックグラウンド情報を組み込んで、機能空間の多様性を高めている。 2つのデータセットによる実験結果から、ProtoConNetは、数ショットシナリオでの表現学習の有効性を高めることが確認された。
論文参考訳（メタデータ） (2025-07-16T02:20:52Z)
EVA: Mixture-of-Experts Semantic Variant Alignment for Compositional Zero-Shot Learning [31.95599022275838]
合成ゼロショット学習(CZSL)のための混在型セマンティック・バリアントアライメント・フレームワークであるEVAを提案する。具体的には、複数のエキスパートを活用してトークン認識学習を実現し、高品質なプリミティブ表現をモデル化するドメインエキスパート適応を導入する。本手法は, クローズド・オープン・ワールド・セッティングの3つのベンチマークにおいて, 最先端のCZSL法よりも優れていた。
論文参考訳（メタデータ） (2025-06-26T04:00:55Z)
Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-27T13:58:12Z)
Duplex: Dual Prototype Learning for Compositional Zero-Shot Learning [17.013498508426398]
合成ゼロショット学習(CZSL)は、学習中に欠落した視覚状態や物体の新たな構成をモデルが認識できるようにすることを目的としている。そこで我々はDuplexを提案する。Duplexは、セマンティックとビジュアルのプロトタイプを、慎重に設計されたデュアルブランチアーキテクチャを通して統合する新しいデュアルプロトタイプ学習手法である。
論文参考訳（メタデータ） (2025-01-13T08:04:32Z)
Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文参考訳（メタデータ） (2024-08-22T15:10:20Z)
Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。 UniFSSは最先端の手法よりも優れています。
論文参考訳（メタデータ） (2024-07-16T08:41:01Z)
PRIOR: Prototype Representation Joint Learning from Medical Images and Reports [19.336988866061294]
医用画像とレポートのグローバルなアライメントとローカルなアライメントを組み合わせた表現学習フレームワークを提案する。標準的なグローバルな多モードアライメント手法とは対照的に、細粒度表現に局所アライメントモジュールを用いる。低レベルのローカライズされた視覚的および高レベルの臨床言語的特徴に焦点を合わせることができる文量プロトタイプメモリバンクを構築する。
論文参考訳（メタデータ） (2023-07-24T07:49:01Z)
Prompting Language-Informed Distribution for Compositional Zero-Shot Learning [73.49852821602057]
合成ゼロショット学習(CZSL)タスクは、目に見えない合成視覚概念を認識することを目的としている。本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。 MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文参考訳（メタデータ） (2023-05-23T18:00:22Z)
Decomposed Soft Prompt Guided Fusion Enhancing for Compositional Zero-Shot Learning [15.406125901927004]
本稿では、視覚言語モデル(VLM)を組み込んで、不明瞭な合成認識を実現することによって、DFSP(Decomposed Fusion with Soft Prompt)1という新しいフレームワークを提案する。具体的には、DFSPは学習可能なソフトプロンプトと状態とオブジェクトのベクトル結合を構築し、それらの結合表現を確立する。さらに、言語とイメージブランチの間にクロスモーダル融合モジュールが設計されており、画像の特徴ではなく、言語機能間で状態とオブジェクトを分解する。
論文参考訳（メタデータ） (2022-11-19T12:29:12Z)
Mutual Balancing in State-Object Components for Compositional Zero-Shot Learning [0.0]
合成ゼロショット学習(CZSL)は、目に見えない状態や物体から未知の合成を認識することを目的としている。そこで本研究では,CZSLのSTate-Object Components (MUST) におけるMUtual Balanceと呼ばれる新しい手法を提案する。我々のアプローチは、MIT-States、UT-Zappos、C-GQAといった基本的なCZSLフレームワークと組み合わせることで、最先端のCZSLよりも大幅に優れています。
論文参考訳（メタデータ） (2022-11-19T10:21:22Z)
Siamese Contrastive Embedding Network for Compositional Zero-Shot Learning [76.13542095170911]
合成ゼロショット学習(CZSL)は、学習中に目に見える状態と対象から形成される見えない構成を認識することを目的としている。本稿では,未知の合成認識のための新しいSiamese Contrastive Embedding Network(SCEN)を提案する。提案手法は,3つの挑戦的ベンチマークデータセットに対して,最先端のアプローチを著しく上回っている。
論文参考訳（メタデータ） (2022-06-29T09:02:35Z)
Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文参考訳（メタデータ） (2022-05-03T17:39:27Z)
Share With Thy Neighbors: Single-View Reconstruction by Cross-Instance Consistency [59.427074701985795]
単一ビューの再構築は通常、視点アノテーション、シルエット、背景の欠如、同じインスタンスの複数のビュー、テンプレートの形状、対称性に依存する。異なるオブジェクトインスタンスのイメージ間の一貫性を明確に活用することで、これらの監督と仮説をすべて回避します。 i)プログレッシブ・コンディショニング(プログレッシブ・コンディショニング)、(ii)類似の形状やテクスチャを持つインスタンス間の一貫性の喪失、(ii)モデルのカテゴリからインスタンスへと徐々に専門化するためのトレーニング戦略。
論文参考訳（メタデータ） (2022-04-21T17:47:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。