論文の概要: Learning How To Ask: Cycle-Consistency Refines Prompts in Multimodal
Foundation Models
- arxiv url: http://arxiv.org/abs/2402.08756v1
- Date: Tue, 13 Feb 2024 19:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 17:56:56.804353
- Title: Learning How To Ask: Cycle-Consistency Refines Prompts in Multimodal
Foundation Models
- Title(参考訳): 質問の仕方を学ぶ: マルチモーダル基礎モデルのプロンプトをサイクルコンシスタンシーが洗練する
- Authors: Maurice Diesendruck, Jianzhe Lin, Shima Imani, Gayathri Mahalingam,
Mingyang Xu, Jie Zhao
- Abstract要約: CyclePromptは、サイクル一貫性をフリーの監視信号として使用し、プロンプトを反復的に作成する。
コード生成と画像キャプションという2つの領域でCyclePromptを実証する。
私たちの知識を最大限に活用するために、自己教師型学習を初めて活用するのはこれが初めてです。
- 参考スコア(独自算出の注目度): 5.625623057841942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When LLMs perform zero-shot inference, they typically use a prompt with a
task specification, and generate a completion. However, there is no work to
explore the possibility of the reverse - going from completion to task
specification. In this paper, we employ both directions to perform
cycle-supervised learning entirely in-context. Our goal is to create a forward
map f : X -> Y (e.g. image -> generated caption), coupled with a backward map g
: Y -> X (e.g. caption -> generated image) to construct a cycle-consistency
"loss" (formulated as an update to the prompt) to enforce g(f(X)) ~= X. The
technique, called CyclePrompt, uses cycle-consistency as a free supervisory
signal to iteratively craft the prompt. Importantly, CyclePrompt reinforces
model performance without expensive fine-tuning, without training data, and
without the complexity of external environments (e.g. compilers, APIs). We
demonstrate CyclePrompt in two domains: code generation and image captioning.
Our results on the HumanEval coding benchmark put us in first place on the
leaderboard among models that do not rely on extra training data or usage of
external environments, and third overall. Compared to the GPT4 baseline, we
improve accuracy from 80.5% to 87.2%. In the vision-language space, we generate
detailed image captions which outperform baseline zero-shot GPT4V captions,
when tested against natural (VQAv2) and diagrammatic (FigureQA) visual
question-answering benchmarks. To the best of our knowledge, this is the first
use of self-supervised learning for prompting.
- Abstract(参考訳): LLMがゼロショット推論を行う場合、通常はタスク仕様のプロンプトを使用し、完了を生成する。
しかしながら、コンプリートからタスク仕様まで、リバースの可能性を探る作業はありません。
本稿では,サイクル教師付き学習をコンテキスト内で完全に行うために両方向を用いる。
私たちのゴールは、フォワードマップ f : X -> Y (例: 画像 -> 生成されたキャプション) と後方マップ g : Y -> X (例: キャプション -> 生成されたイメージ) を結合して、サイクル一貫性"loss" (プロンプトへの更新として表現される) を構築して g(f(X)) ~= X を強制することです。
重要なことは、CyclePromptは、高価な微調整なしで、トレーニングデータなしで、外部環境(例えば、コンパイラ、API)の複雑さのないモデルパフォーマンスを強化することである。
コード生成と画像キャプションという2つのドメインでcyclepromptをデモします。
humanevalコーディングベンチマークの結果から、トレーニングデータや外部環境の使用に依存しないモデルの中で、リーダボードが第1位、全体が第3位になりました。
GPT4ベースラインと比較して、精度は80.5%から87.2%に向上した。
視覚言語空間では、自然な (VQAv2) と図形的な (FigureQA) 視覚質問応答ベンチマークに対して、ベースラインゼロショットの GPT4Vキャプションより優れた詳細な画像キャプションを生成する。
私たちの知る限りでは、これはプロンプトのための自己監督学習の最初の使用です。
関連論文リスト
- Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - SA$^2$VP: Spatially Aligned-and-Adapted Visual Prompt [59.280491260635266]
視覚的プロンプトチューニングの方法は、NLPから派生した逐次モデリングパラダイムに従う。
マイモデルモデルは、画像トークンマップに等しい大きさ(またはスケールした)の2次元プロンプトトークンマップを学習する。
我々のモデルは、個々の画像トークンをきめ細かな方法でプロンプトすることができる。
論文 参考訳(メタデータ) (2023-12-16T08:23:43Z) - Rejuvenating image-GPT as Strong Visual Representation Learners [28.77567067712619]
本稿では,次のピクセルの予測に自己回帰事前学習を導入する先駆的な研究である画像GPTを強化する。
我々は、予測対象を生の画素から意味トークンにシフトし、視覚的内容の高レベルな理解を可能にする。
実験では、D-iGPTが視覚表現の強力な学習者として優れていることが示された。
論文 参考訳(メタデータ) (2023-12-04T18:59:20Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - Visual Semantics Allow for Textual Reasoning Better in Scene Text
Recognition [46.83992441581874]
本稿では,視覚的意味論に基づくテキスト推論を初めて試みる。
我々は、テキスト推論(GTR)のためのグラフ畳み込みネットワークを、クロスエントロピー損失で監視することによって考案する。
S-GTRは6つのSTRベンチマークに新しい最先端をセットし、多言語データセットに最適化する。
論文 参考訳(メタデータ) (2021-12-24T02:43:42Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。