Fugu-MT 論文翻訳(概要): ArGue: Attribute-Guided Prompt Tuning for Vision-Language Models

論文の概要: ArGue: Attribute-Guided Prompt Tuning for Vision-Language Models

arxiv url: http://arxiv.org/abs/2311.16494v1
Date: Mon, 27 Nov 2023 10:34:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-29 19:58:19.865066
Title: ArGue: Attribute-Guided Prompt Tuning for Vision-Language Models
Title（参考訳）: ArGue: ビジョンランゲージモデルのための属性ガイド型プロンプトチューニング
Authors: Xinyu Tian, Shu Zou, Zhaoyuan Yang, Jing Zhang
Abstract要約: 本稿では,ビジョンランゲージ(V&L)モデルのための anAttribute-Guided Prompt Tuning (ArGue) を開発した。大規模言語モデル(LLM)によって生成された原始的な視覚属性とモデルを一致させる。提案手法は,新しいクラス予測とアウト・オブ・ディストリビューション一般化タスクの両方において,最先端のプロンプトチューニング手法を著しく上回っている。
参考スコア（独自算出の注目度）: 9.261590575715669
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although soft prompt tuning is effective in efficiently adapting Vision-Language (V&L) models for downstream tasks, it shows limitations in dealing with distribution shifts. We address this issue with Attribute-Guided Prompt Tuning (ArGue), making three key contributions. 1) In contrast to the conventional approach of directly appending soft prompts preceding class names, we align the model with primitive visual attributes generated by Large Language Models (LLMs). We posit that a model's ability to express high confidence in these attributes signifies its capacity to discern the correct class rationales. 2) We introduce attribute sampling to eliminate disadvantageous attributes, thus only semantically meaningful attributes are preserved. 3) We propose negative prompting, explicitly enumerating class-agnostic attributes to activate spurious correlations and encourage the model to generate highly orthogonal probability distributions in relation to these negative features. In experiments, our method significantly outperforms current state-of-the-art prompt tuning methods on both novel class prediction and out-of-distribution generalization tasks.
Abstract（参考訳）: ソフトプロンプトチューニングは、下流タスクに対するビジョン・ランゲージ(V&L)モデルを効率的に適応するのに有効であるが、分散シフトを扱う際の限界を示す。私たちはAttribute-Guided Prompt Tuning(ArGue)でこの問題に対処し、3つの重要なコントリビューションを行います。 1) クラス名に先立つソフトプロンプトを直接付加する従来のアプローチとは対照的に, 大言語モデル(llm)によって生成された原始視覚属性をモデルに適合させる。モデルがこれらの属性に高い信頼を表現できる能力は、正しいクラス論理を識別する能力を示していると仮定する。 2)不利な属性を排除するために属性サンプリングを導入し,意味的に意味のある属性のみが保存される。 3) 負のプロンプト, クラスに依存しない属性を明示的に列挙して刺激的相関を活性化し, モデルがこれらの負の特徴に関して高い直交確率分布を生成することを奨励する。実験において,本手法は,新しいクラス予測と分散一般化タスクの両方において,最先端のプロンプトチューニング手法を著しく上回っている。

関連論文リスト

Latent Principle Discovery for Language Model Self-Improvement [14.137106102563514]
本稿では, 自己補正設定で明示的にモデル化することで, 人間の嗜好応答を推論する潜在属性を抽出する手法を提案する。提案手法は,LM自体から新たな原理を抽出し,発見した要素をクラスタリングにより解釈可能な集合に圧縮する。複数の反復でアルゴリズムをブートストラップすることで、より小さな言語モデルを自己改善し、AlpacaEvalの勝率+8-10%、MT-Benchの平均+0.3、IFEvalの勝率+19-23%を達成できることを示した。
論文参考訳（メタデータ） (2025-05-22T17:20:18Z)
Black Sheep in the Herd: Playing with Spuriously Correlated Attributes for Vision-Language Recognition [8.950906917573986]
VLM(Vision-Language Models)は、分布内精度と分布外一般化のバランスをとるジレンマを示す。近年の研究では、視覚属性などの低レベル概念を活用して一般化を高めている。この研究は、VLMが、カテゴリと同一であるが本質的にはその一部ではないが、突発的に相関する属性である意思決定に、小さな属性のサブセットを過度に依存していることを明らかにする。
論文参考訳（メタデータ） (2025-02-19T12:05:33Z)
Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文参考訳（メタデータ） (2025-01-02T22:26:54Z)
Dude: Dual Distribution-Aware Context Prompt Learning For Large Vision-Language Model [27.56988000960972]
ドメイン共有コンテキストとクラス固有コンテキストの両方の2つのコンテキストに基づいた新しいフレームワークを導入する。このような二重プロンプト手法は、大規模言語モデルで符号化された暗黙的および明示的な要素を結合することによって、モデルの特徴表現を強化する。また、構築されたプロンプトと視覚トークンの関係を定量化するために、不均衡最適輸送(UOT)理論を定式化する。
論文参考訳（メタデータ） (2024-07-05T13:15:29Z)
Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文参考訳（メタデータ） (2024-03-01T09:01:53Z)
Vision-language Assisted Attribute Learning [53.60196963381315]
大規模な属性ラベリングは通常不完全で部分的である。既存の属性学習手法は、欠落したラベルを否定的な扱いをすることが多い。利用可能な視覚言語知識を活用して、モデル学習の強化に欠落しているラベルを明確に明らかにする。
論文参考訳（メタデータ） (2023-12-12T06:45:19Z)
Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文参考訳（メタデータ） (2023-03-23T12:28:25Z)
Exploiting Semantic Attributes for Transductive Zero-Shot Learning [97.61371730534258]
ゼロショット学習は、視覚的特徴と、そのクラスから学んだ意味的属性の関係を一般化することにより、目に見えないクラスを認識することを目的としている。本稿では,未知データの意味的属性を生成し,生成過程に付加する新しいZSL法を提案する。 5つの標準ベンチマーク実験により,本手法がゼロショット学習の最先端結果をもたらすことが示された。
論文参考訳（メタデータ） (2023-03-17T09:09:48Z)
Patch-Prompt Aligned Bayesian Prompt Tuning for Vision-Language Models [48.77653835765705]
そこでは,まず下位分布から潜在ベクトルをサンプリングし,次に軽量な生成モデルを用いてラベル固有のプロンプトを階層的に生成する。提案手法の有効性は,少数ショット画像認識,ベース・ツー・ニュージェネリゼーション,データセット転送学習,ドメインシフトの4つのタスクで評価する。
論文参考訳（メタデータ） (2023-03-16T06:09:15Z)
Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文参考訳（メタデータ） (2022-10-27T05:19:55Z)
Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文参考訳（メタデータ） (2021-09-09T10:10:29Z)
A Framework to Learn with Interpretation [2.3741312212138896]
本稿では,予測モデルとその関連解釈モデルを共同で学習する新しい枠組みを提案する。我々は,選択した隠れ層の出力を入力として取り込む,高レベル属性関数の小型辞書を求める。学習した機能を視覚化する詳細なパイプラインも開発されている。
論文参考訳（メタデータ） (2020-10-19T09:26:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。