Fugu-MT 論文翻訳(概要): Learning to Infer Generative Template Programs for Visual Concepts

論文の概要: Learning to Infer Generative Template Programs for Visual Concepts

arxiv url: http://arxiv.org/abs/2403.15476v2
Date: Sun, 9 Jun 2024 21:54:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 00:43:59.826290
Title: Learning to Infer Generative Template Programs for Visual Concepts
Title（参考訳）: 視覚概念のための生成テンプレートプログラムの推論学習
Authors: R. Kenny Jones, Siddhartha Chaudhuri, Daniel Ritchie,
Abstract要約: 我々は、視覚概念をドメイン・ジェネラルな方法で捉えたプログラムを推論する方法を学ぶ。筆者らのフレームワークは, 少数ショット生成や協調作業など, 概念関連タスクを複数サポートしている。 2Dレイアウト、Omniglot文字、そして3D形状です。
参考スコア（独自算出の注目度）: 25.34024228105706
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: People grasp flexible visual concepts from a few examples. We explore a neurosymbolic system that learns how to infer programs that capture visual concepts in a domain-general fashion. We introduce Template Programs: programmatic expressions from a domain-specific language that specify structural and parametric patterns common to an input concept. Our framework supports multiple concept-related tasks, including few-shot generation and co-segmentation through parsing. We develop a learning paradigm that allows us to train networks that infer Template Programs directly from visual datasets that contain concept groupings. We run experiments across multiple visual domains: 2D layouts, Omniglot characters, and 3D shapes. We find that our method outperforms task-specific alternatives, and performs competitively against domain-specific approaches for the limited domains where they exist.
Abstract（参考訳）: 人々はいくつかの例から柔軟な視覚概念を把握します。本稿では,視覚的概念を一般の方法で捉えたプログラムを推論する方法を学ぶニューロシンボリックシステムについて検討する。本稿では,入力概念に共通する構造パターンとパラメトリックパターンを指定するドメイン固有言語からのプログラム表現について紹介する。本フレームワークは,構文解析による少数ショット生成と協調分割を含む,複数の概念関連タスクをサポートする。概念グループを含むビジュアルデータセットから直接テンプレートプログラムを推論するネットワークをトレーニングする学習パラダイムを開発する。 2Dレイアウト、Omniglot文字、そして3D形状です。提案手法は,タスク固有の代替手法よりも優れており,ドメイン固有のアプローチに対して競争力があることがわかった。

関連論文リスト

Visual Planning: Let's Think Only with Images [30.67065689757505]
我々は、特に空間的情報や幾何学的情報を含むタスクにおいて、言語が推論において最も自然で効果的なモダリティであるとは限らないと論じる。そこで本研究では,テキストから独立して,純粋に視覚的な表現によるプランニングを可能にする,ビジュアルプランニングという新たなパラダイムを提案する。このパラダイムでは、計画は視覚領域におけるステップバイステップの推論を符号化する一連の画像を通して実行される。
論文参考訳（メタデータ） (2025-05-16T16:17:22Z)
A Concept-Centric Approach to Multi-Modality Learning [3.828996378105142]
我々は、より効率的なAIシステムを構築するために、新しいマルチモーダリティ学習フレームワークを導入する。我々のフレームワークは、より効率的な学習曲線を示しながら、ベンチマークモデルと同等に達成する。
論文参考訳（メタデータ） (2024-12-18T13:40:21Z)
CoProNN: Concept-based Prototypical Nearest Neighbors for Explaining Vision Models [1.0855602842179624]
ドメインエキスパートが自然言語で直感的にコンピュータビジョンタスクのコンセプトベースの説明を素早く作成できる新しいアプローチを提案する。 CoProNNのモジュラー設計は実装が簡単で、新しいタスクに適応しやすく、分類とテキスト・トゥ・イメージ・モデルを置き換えることができる。我々の戦略は、粗粒度画像分類タスクにおける他の概念ベースのXAIアプローチと非常によく競合し、さらに細粒度細粒度タスクにおいてそれらの手法よりも優れることを示した。
論文参考訳（メタデータ） (2024-04-23T08:32:38Z)
Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training [11.129868018236445]
VQA(Visual Question Answering)をマルチモーダル・プレトレーニングに利用して,対象とする病態の特徴に着目したフレームワークのガイドを行う。また,視覚的特徴をテキスト領域に近い準テキスト空間に変換するためのモジュールである準テキスト特徴変換器を用いた新しい事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-30T02:56:54Z)
Leveraging Open-Vocabulary Diffusion to Camouflaged Instance Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文参考訳（メタデータ） (2023-12-29T07:59:07Z)
Language-Informed Visual Concept Learning [22.911347501969857]
我々は概念エンコーダのセットを訓練し、言語インフォームドの概念軸のセットに関連する情報を符号化する。次に、トレーニング済みのVisual Question Answering(VQA)モデルから得られたテキスト埋め込みの集合に埋め込みの概念を固定する。推論時に、新しいテスト画像から様々な軸に沿った概念埋め込みを抽出し、それをリミックスして視覚概念の新規な構成で画像を生成する。
論文参考訳（メタデータ） (2023-12-06T16:24:47Z)
Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。次に、新しい2段階のカスタマイズプロセスを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:04Z)
MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action [96.33509740612486]
MM-REACTは、マルチモーダル推論とアクションを達成するために、ChatGPTとビジョンエキスパートのプールを統合するシステムパラダイムである。 MM-REACTのプロンプト設計により、言語モデルはマルチモーダル情報を受け入れ、関連づけ、処理することができる。
論文参考訳（メタデータ） (2023-03-20T18:31:47Z)
Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。 4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文参考訳（メタデータ） (2022-10-07T06:42:06Z)
Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-28T14:27:38Z)
Towards Recognizing New Semantic Concepts in New Visual Domains [9.701036831490768]
我々は、これまで見えない視覚領域で機能し、新しいセマンティックな概念を認識できるディープアーキテクチャを設計することが重要であると論じている。論文の第1部では、深層モデルが新しいビジュアルドメインに一般化できるように、異なるソリューションについて記述する。第2部では、事前訓練された深層モデルの知識を、元のトレーニングセットにアクセスすることなく、新しい意味概念に拡張する方法を示す。
論文参考訳（メタデータ） (2020-12-16T16:23:40Z)
Weakly Supervised Visual Semantic Parsing [49.69377653925448]
SGG(Scene Graph Generation)は、画像からエンティティ、述語、それらの意味構造を抽出することを目的としている。既存のSGGメソッドでは、トレーニングのために何百万もの手動アノテーション付きバウンディングボックスが必要である。本稿では,ビジュアルセマンティック・パーシング,VSPNet,グラフベースの弱教師付き学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-01-08T03:46:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。