論文の概要: Not Just Object, But State: Compositional Incremental Learning without Forgetting
- arxiv url: http://arxiv.org/abs/2411.01739v1
- Date: Mon, 04 Nov 2024 01:42:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:39:45.734680
- Title: Not Just Object, But State: Compositional Incremental Learning without Forgetting
- Title(参考訳): 単なるオブジェクトではなく状態:忘れずに構成的インクリメンタルな学習
- Authors: Yanyi Zhang, Binglin Qiu, Qi Jia, Yu Liu, Ran He,
- Abstract要約: コンポジションインクリメンタルラーニング(composition-IL)という新しい課題を提案する。
これにより、段階的な学習方法で状態オブジェクトの合成全体を認識できる。
そこで我々は,不明瞭な構成境界問題を克服するために,プロンプトベースのコンポジションインクリメンタルラーナ (Compiler) を提案する。
- 参考スコア(独自算出の注目度): 47.0008210583273
- License:
- Abstract: Most incremental learners excessively prioritize coarse classes of objects while neglecting various kinds of states (e.g. color and material) attached to the objects. As a result, they are limited in the ability to reason fine-grained compositionality of state-object pairs. To remedy this limitation, we propose a novel task called Compositional Incremental Learning (composition-IL), enabling the model to recognize state-object compositions as a whole in an incremental learning fashion. Since the lack of suitable benchmarks, we re-organize two existing datasets and make them tailored for composition-IL. Then, we propose a prompt-based Composition Incremental Learner (CompILer), to overcome the ambiguous composition boundary problem which challenges composition-IL largely. Specifically, we exploit multi-pool prompt learning, which is regularized by inter-pool prompt discrepancy and intra-pool prompt diversity. Besides, we devise object-injected state prompting by using object prompts to guide the selection of state prompts. Furthermore, we fuse the selected prompts by a generalized-mean strategy, to eliminate irrelevant information learned in the prompts. Extensive experiments on two datasets exhibit state-of-the-art performance achieved by CompILer.
- Abstract(参考訳): ほとんどのインクリメンタル学習者は、オブジェクトに付着するさまざまな状態(例えば色や素材)を無視しながら、オブジェクトの粗いクラスを過度に優先順位付けする。
その結果、状態オブジェクト対の微細な構成性を推論する能力は制限される。
この制限を緩和するために,コンポジションインクリメンタルラーニング(compositional Incremental Learning, 合成-IL)と呼ばれる新しいタスクを提案する。
適切なベンチマークがないため、2つの既存のデータセットを再編成し、コンポジション-ILに適したものにします。
そこで本研究では,コンポジションインクリメンタルラーナ(Compiler)を提案する。
具体的には、複数プール間プロンプト学習を利用し、プール間プロンプトの相違とプール内プロンプトの多様性によって正規化する。
さらに、オブジェクトプロンプトを用いてオブジェクト注入状態プロンプトを作成し、状態プロンプトの選択を誘導する。
さらに、選択したプロンプトを一般化平均戦略で融合させ、プロンプトで学習した無関係な情報を除去する。
2つのデータセットに対する大規模な実験は、Compilerによって達成された最先端のパフォーマンスを示している。
関連論文リスト
- SHINE: Saliency-aware HIerarchical NEgative Ranking for Compositional Temporal Grounding [52.98133831401225]
時間的グラウンドディング(英: Temporal grounding、ビデオモーメント検索(英語版))は、所定のクエリ文に対応するビデオセグメントを特定することを目的としている。
本稿では, GPT-3.5-Turbo を用いた負のクエリ構築のための大規模言語モデル駆動手法を提案する。
本稿では,ビデオと階層的負のクエリ間の多粒度意味的関係を学習するモデルを提案する。
論文 参考訳(メタデータ) (2024-07-06T16:08:17Z) - "Set It Up!": Functional Object Arrangement with Compositional Generative Models [48.205899984212074]
未特定命令の解釈を学習するためのフレームワークであるSetItUpを導入する。
研究デスク,ダイニングテーブル,コーヒーテーブルからなるデータセット上で,我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2024-05-20T10:06:33Z) - LaSagnA: Language-based Segmentation Assistant for Complex Queries [39.620806493454616]
視覚のための大規模言語モデル(vLLM)は、バウンディングボックスやマスクを含む知覚結果を生成する。
本研究では,これらの問題の主な原因が,学習クエリの複雑さの不足であることを認めた。
本稿では,提案フォーマットの直接統合による課題を効果的に解決するための3つの新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-04-12T14:40:45Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z) - Im-Promptu: In-Context Composition from Image Prompts [10.079743487034762]
視覚刺激の構成可能な要素に対して,類似推論がコンテキスト内合成を可能にするか否かを検討する。
我々はIm-Promptuを使って、ベクトル表現、パッチ表現、オブジェクトスロットなど、さまざまなレベルの構成性のエージェントを訓練する。
本実験は,学習された構成規則を未知の領域に拡張する非構成的表現を用いて,外挿能力と構成性の程度とのトレードオフを明らかにする。
論文 参考訳(メタデータ) (2023-05-26T21:10:11Z) - Contrastive Training of Complex-Valued Autoencoders for Object Discovery [55.280789409319716]
アーキテクチャの変更と、最先端の同期モデルを大幅に改善する新しいコントラスト学習手法を導入する。
マルチオブジェクトカラーデータセットにおいて、教師なしの方法でオブジェクトを発見できる同期ベースモデルのクラスを初めて取得する。
論文 参考訳(メタデータ) (2023-05-24T10:37:43Z) - Learning Attention Propagation for Compositional Zero-Shot Learning [71.55375561183523]
コンポジションアテンション・プロパゲード・エンベディング(CAPE)と呼ばれる新しい手法を提案する。
CAPEは、この構造を識別し、それらの間の知識を伝播して、目に見えないすべての構成に対するクラス埋め込みを学ぶ。
提案手法は,3つの公開ベンチマークに対して,新しい最先端のベンチマークを設定するために,従来のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T19:44:11Z) - A Unified Framework for Multi-intent Spoken Language Understanding with
prompting [14.17726194025463]
Prompt-based Spoken Language Understanding (PromptSLU) フレームワークについて述べる。
詳細は、音声をタスク固有のプロンプトテンプレートに入力として簡潔に充填し、キー-値ペアシーケンスの出力形式を共有することにより、IDとSFが完成する。
実験の結果,我々のフレームワークは2つの公開データセット上で,最先端のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-10-07T05:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。