論文の概要: A Concept-Centric Approach to Multi-Modality Learning
- arxiv url: http://arxiv.org/abs/2412.13847v1
- Date: Wed, 18 Dec 2024 13:40:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:48:53.854552
- Title: A Concept-Centric Approach to Multi-Modality Learning
- Title(参考訳): マルチモーダル学習における概念中心的アプローチ
- Authors: Yuchong Geng, Ao Tang,
- Abstract要約: 我々は、より効率的なAIシステムを構築するために、新しいマルチモーダリティ学習フレームワークを導入する。
我々のフレームワークは、より効率的な学習曲線を示しながら、ベンチマークモデルと同等に達成する。
- 参考スコア(独自算出の注目度): 3.828996378105142
- License:
- Abstract: In an effort to create a more efficient AI system, we introduce a new multi-modality learning framework that leverages a modality-agnostic concept space possessing abstract knowledge and a set of modality-specific projection models tailored to process distinct modality inputs and map them onto the concept space. Decoupled from specific modalities and their associated projection models, the concept space focuses on learning abstract knowledge that is universally applicable across modalities. Subsequently, the knowledge embedded into the concept space streamlines the learning processes of modality-specific projection models. We evaluate our framework on two popular tasks: Image-Text Matching and Visual Question Answering. Our framework achieves performance on par with benchmark models while demonstrating more efficient learning curves.
- Abstract(参考訳): より効率的なAIシステムを構築するために、抽象的な知識を持つモダリティ非依存の概念空間と、異なるモダリティ入力を処理し、概念空間にマップするように調整されたモダリティ固有のプロジェクションモデルのセットを活用する、新しいマルチモダリティ学習フレームワークを導入する。
特定のモダリティと関連する射影モデルから切り離され、概念空間は、モダリティを越えて普遍的に適用可能な抽象的知識の学習に焦点を当てる。
その後、概念空間に埋め込まれた知識は、モダリティ固有の射影モデルの学習過程を合理化する。
我々は、画像テキストマッチングと視覚質問応答という2つの一般的なタスクについて、我々のフレームワークを評価した。
我々のフレームワークは、より効率的な学習曲線を示しながら、ベンチマークモデルと同等のパフォーマンスを達成する。
関連論文リスト
- InFiConD: Interactive No-code Fine-tuning with Concept-based Knowledge Distillation [18.793275018467163]
本稿では,知識蒸留プロセスの実装に視覚的概念を活用する新しいフレームワークであるInFiConDを提案する。
本研究では,概念コーパスからテキストに沿った視覚概念を抽出し,新しい知識蒸留パイプラインを構築する。
InFiConDのインタフェースは、ユーザインタフェース内で概念の影響を直接操作することで、対話的に学生モデルを微調整することができる。
論文 参考訳(メタデータ) (2024-06-25T16:56:45Z) - Mining Frequent Structures in Conceptual Models [2.841785306638839]
本稿では,概念モデリング言語における頻繁な構造発見問題に対する一般的なアプローチを提案する。
我々は,頻繁な部分グラフマイニングアルゴリズムとグラフ操作手法を組み合わせる。
主な目的は、言語エンジニアのためのサポート施設を提供することである。
論文 参考訳(メタデータ) (2024-06-11T10:24:02Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Contrastive Language-Image Pre-Training with Knowledge Graphs [33.211811772961234]
本稿では,CLIPモデルに意味情報を注入する知識ベース事前学習フレームワークであるKnowledge-CLIPを提案する。
我々のモデルは、視覚と言語の表現を高い品質で意味的に整合させ、シナリオやモダリティを越えて推論能力を高めることができる。
論文 参考訳(メタデータ) (2022-10-17T09:49:22Z) - A Unified Continuous Learning Framework for Multi-modal Knowledge
Discovery and Pre-training [73.7507857547549]
本稿では,継続的学習フレームワークにおける知識発見とマルチモーダル事前学習の統合を提案する。
知識発見のために、事前訓練されたモデルを用いてグラフ上のクロスモーダルリンクを識別する。
モデル事前トレーニングでは、モデル更新をガイドする外部知識として知識グラフが使用される。
論文 参考訳(メタデータ) (2022-06-11T16:05:06Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z) - A Competence-aware Curriculum for Visual Concepts Learning via Question
Answering [95.35905804211698]
本稿では,視覚概念学習のための質問応答型カリキュラムを提案する。
視覚概念を学習するためのニューラルシンボリックな概念学習者と学習プロセスを導くための多次元項目応答理論(mIRT)モデルを設計する。
CLEVRの実験結果から,コンピテンスを意識したカリキュラムにより,提案手法は最先端のパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2020-07-03T05:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。