論文の概要: Im-Promptu: In-Context Composition from Image Prompts
- arxiv url: http://arxiv.org/abs/2305.17262v3
- Date: Mon, 23 Oct 2023 00:45:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 09:01:49.522551
- Title: Im-Promptu: In-Context Composition from Image Prompts
- Title(参考訳): im-promptu: イメージプロンプトからのコンテキスト内コンポジション
- Authors: Bhishma Dedhia, Michael Chang, Jake C. Snell, Thomas L. Griffiths,
Niraj K. Jha
- Abstract要約: 視覚刺激の構成可能な要素に対して,類似推論がコンテキスト内合成を可能にするか否かを検討する。
我々はIm-Promptuを使って、ベクトル表現、パッチ表現、オブジェクトスロットなど、さまざまなレベルの構成性のエージェントを訓練する。
本実験は,学習された構成規則を未知の領域に拡張する非構成的表現を用いて,外挿能力と構成性の程度とのトレードオフを明らかにする。
- 参考スコア(独自算出の注目度): 10.079743487034762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are few-shot learners that can solve diverse tasks from
a handful of demonstrations. This implicit understanding of tasks suggests that
the attention mechanisms over word tokens may play a role in analogical
reasoning. In this work, we investigate whether analogical reasoning can enable
in-context composition over composable elements of visual stimuli. First, we
introduce a suite of three benchmarks to test the generalization properties of
a visual in-context learner. We formalize the notion of an analogy-based
in-context learner and use it to design a meta-learning framework called
Im-Promptu. Whereas the requisite token granularity for language is well
established, the appropriate compositional granularity for enabling in-context
generalization in visual stimuli is usually unspecified. To this end, we use
Im-Promptu to train multiple agents with different levels of compositionality,
including vector representations, patch representations, and object slots. Our
experiments reveal tradeoffs between extrapolation abilities and the degree of
compositionality, with non-compositional representations extending learned
composition rules to unseen domains but performing poorly on combinatorial
tasks. Patch-based representations require patches to contain entire objects
for robust extrapolation. At the same time, object-centric tokenizers coupled
with a cross-attention module generate consistent and high-fidelity solutions,
with these inductive biases being particularly crucial for compositional
generalization. Lastly, we demonstrate a use case of Im-Promptu as an intuitive
programming interface for image generation.
- Abstract(参考訳): 大規模な言語モデルは、少数のデモから様々なタスクを解決できる数少ない学習者です。
この暗黙のタスクの理解は、単語トークンに対する注意のメカニズムが類推的推論に重要な役割を果たしていることを示唆している。
本研究では,視覚刺激の構成可能な要素に対して,類似推論がコンテキスト内合成を可能にするかどうかを検討する。
まず,視覚インコンテキスト学習者の一般化特性をテストするための3つのベンチマークスイートを提案する。
アナロジーに基づくインコンテキスト学習の概念を定式化し,im-promptuと呼ばれるメタ学習フレームワークの設計に使用する。
言語に必要なトークンの粒度は十分に確立されているが、視覚刺激における文脈内一般化を可能にするための適切な構成の粒度は、通常不明である。
この目的のために、我々はim-promptuを使用して、ベクタ表現、パッチ表現、オブジェクトスロットなど、さまざまなレベルのコンポジション性を持つ複数のエージェントを訓練します。
本実験は,合成規則を未知の領域に拡張する非構成的表現を用いて,外挿能力と構成性の程度とのトレードオフを明らかにする。
パッチベースの表現は、堅牢な外挿のために全オブジェクトを含むパッチを必要とする。
同時に、クロスアテンションモジュールと結合したオブジェクト中心のトークン化器は一貫性のある高忠実な解を生成し、これらの帰納的バイアスは合成の一般化に特に重要である。
最後に,画像生成のための直感的なプログラミングインタフェースとしてim-promptuのユースケースを示す。
関連論文リスト
- IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。
IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文 参考訳(メタデータ) (2024-06-19T16:37:31Z) - Contextualized word senses: from attention to compositionality [0.10878040851637999]
本稿では,文脈感覚を符号化する透過的,解釈可能,言語的に動機づけられた戦略を提案する。
特に依存関係や選択選好やパラダイムクラスといった意味概念に注意が向けられる。
論文 参考訳(メタデータ) (2023-12-01T16:04:00Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Semantic Composition in Visually Grounded Language Models [0.0]
視覚的に接地された言語モデルは構成構造を表現するのに大きく失敗することを示す。
我々は新しい構成的視覚的質問応答ベンチマークであるWinogroundVQAを紹介する。
我々は、研究の神経科学、精神言語学、形式意味論、哲学との関連について論じる。
論文 参考訳(メタデータ) (2023-05-15T03:19:42Z) - Relate to Predict: Towards Task-Independent Knowledge Representations
for Reinforcement Learning [11.245432408899092]
強化学習は、エージェントが複雑なタスクを学習できるようにする。
知識を解釈し、タスク間で再利用することは難しい。
本稿では,対象中心の知識分離を明示する帰納的バイアスを導入する。
知識分離における明示性の程度は、学習の高速化、精度の向上、一般化の向上、理解可能性の向上と相関していることを示す。
論文 参考訳(メタデータ) (2022-12-10T13:33:56Z) - Learning Attention Propagation for Compositional Zero-Shot Learning [71.55375561183523]
コンポジションアテンション・プロパゲード・エンベディング(CAPE)と呼ばれる新しい手法を提案する。
CAPEは、この構造を識別し、それらの間の知識を伝播して、目に見えないすべての構成に対するクラス埋め込みを学ぶ。
提案手法は,3つの公開ベンチマークに対して,新しい最先端のベンチマークを設定するために,従来のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T19:44:11Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - On (Emergent) Systematic Generalisation and Compositionality in Visual
Referential Games with Straight-Through Gumbel-Softmax Estimator [0.30458514384586394]
2人(またはそれ以上)のエージェントが非視覚的な参照ゲームを行うと、構成性のドライバが現れる。
本稿では,ST-GSの文脈において,これまでフィールドで認識されてきた構成性の要因がどの程度適用されているかを検討する。
st-gsアプローチを小さなバッチサイズとオーバーコンプリート通信チャネルで使用することで、新興言語のコンポジション性が向上する。
論文 参考訳(メタデータ) (2020-12-19T20:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。