論文の概要: MoKus: Leveraging Cross-Modal Knowledge Transfer for Knowledge-Aware Concept Customization
- arxiv url: http://arxiv.org/abs/2603.12743v1
- Date: Fri, 13 Mar 2026 07:39:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.972223
- Title: MoKus: Leveraging Cross-Modal Knowledge Transfer for Knowledge-Aware Concept Customization
- Title(参考訳): MoKus: 知識認識概念カスタマイズのためのクロスモーダルな知識伝達の活用
- Authors: Chenyang Zhu, Hongxiang Li, Xiu Li, Long Chen,
- Abstract要約: 本稿では,視覚的概念をターゲットとした多様なテキスト知識の結合を目的とした新しい課題である知識認識概念カスタマイズを提案する。
このタスクでは、高忠実度でカスタマイズされた生成を行うために、テキストプロンプト内の知識を特定する必要がある。
知識を意識した概念カスタマイズのための新しいフレームワークであるMoKusを提案する。
- 参考スコア(独自算出の注目度): 29.107345150461143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Concept customization typically binds rare tokens to a target concept. Unfortunately, these approaches often suffer from unstable performance as the pretraining data seldom contains these rare tokens. Meanwhile, these rare tokens fail to convey the inherent knowledge of the target concept. Consequently, we introduce Knowledge-aware Concept Customization, a novel task aiming at binding diverse textual knowledge to target visual concepts. This task requires the model to identify the knowledge within the text prompt to perform high-fidelity customized generation. Meanwhile, the model should efficiently bind all the textual knowledge to the target concept. Therefore, we propose MoKus, a novel framework for knowledge-aware concept customization. Our framework relies on a key observation: cross-modal knowledge transfer, where modifying knowledge within the text modality naturally transfers to the visual modality during generation. Inspired by this observation, MoKus contains two stages: (1) In visual concept learning, we first learn the anchor representation to store the visual information of the target concept. (2) In textual knowledge updating, we update the answer for the knowledge queries to the anchor representation, enabling high-fidelity customized generation. To further comprehensively evaluate our proposed MoKus on the new task, we introduce the first benchmark for knowledge-aware concept customization: KnowCusBench. Extensive evaluations have demonstrated that MoKus outperforms state-of-the-art methods. Moreover, the cross-model knowledge transfer allows MoKus to be easily extended to other knowledge-aware applications like virtual concept creation and concept erasure. We also demonstrate the capability of our method to achieve improvements on world knowledge benchmarks.
- Abstract(参考訳): 概念のカスタマイズは通常、希少なトークンをターゲット概念に結合する。
残念ながら、これらのアプローチはしばしば不安定なパフォーマンスに悩まされる。
一方、これらの希少なトークンは、ターゲット概念の本質的な知識を伝達することができない。
そこで本研究では,視覚的概念を対象とする多様なテキスト知識の結合を目的とした新しい課題である知識認識概念カスタマイズを提案する。
このタスクでは、高忠実度でカスタマイズされた生成を行うために、テキストプロンプト内の知識を特定する必要がある。
一方、モデルは、すべてのテキスト知識をターゲット概念に効果的に結び付けるべきである。
そこで本研究では,知識を意識した概念カスタマイズのための新しいフレームワークであるMoKusを提案する。
テキストモダリティ内での知識の変更は、生成時に自然に視覚的モダリティに移行する。
視覚概念学習では,まず,対象概念の視覚情報を記憶するアンカー表現を学習する。
2)テキストによる知識更新では,知識クエリに対する回答をアンカー表現に更新し,高忠実度でカスタマイズされた生成を可能にする。
提案したMoKuを新たなタスクでより包括的に評価するため,知識認識概念のカスタマイズのための最初のベンチマークである KnowCusBench を紹介した。
大規模な評価では、MoKusは最先端の手法より優れていることが示されている。
さらに、クロスモデルな知識伝達により、MoKusは仮想概念の作成や概念の消去といった他の知識対応アプリケーションにも容易に拡張できる。
また,この手法が世界知識ベンチマークの改善に有効であることを示す。
関連論文リスト
- CLLMRec: LLM-powered Cognitive-Aware Concept Recommendation via Semantic Alignment and Prerequisite Knowledge Distillation [3.200298153814017]
大規模オープンオンラインコース(MOOC)の成長は、概念が不可欠であるパーソナライズされた学習に重大な課題をもたらす。
既存のアプローチは通常、概念的関係を捉えるために異種情報ネットワークや知識グラフに依存し、学習者の認知状態を評価するための知識追跡モデルと組み合わせている。
本稿では,CLLMRecを提案する。CLLMRecは,大規模言語モデルを利用してパーソナライズされた概念レコメンデーションを生成する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-21T08:37:39Z) - FaCT: Faithful Concept Traces for Explaining Neural Network Decisions [56.796533084868884]
ディープネットワークは、幅広いタスクで顕著なパフォーマンスを示しているが、それらの機能に関するグローバルな概念レベルの理解は、依然として重要な課題である。
本稿では,概念に基づく説明の忠実さを強調し,モデル独立な機械的概念説明を用いた新しいモデルを提案する。
私たちの概念はクラス間で共有され、あらゆるレイヤから、ロジットへの貢献と入力-視覚化を忠実にトレースすることができます。
論文 参考訳(メタデータ) (2025-10-29T13:35:46Z) - Language Guided Concept Bottleneck Models for Interpretable Continual Learning [62.09201360376577]
継続的な学習は、学習した情報を忘れることなく、学習システムが新しい知識を常に獲得することを目的としている。
既存のCLメソッドのほとんどは、モデルパフォーマンスを改善するための学習知識の保存に重点を置いている。
両課題に対処するために,言語指導型概念ボトルネックモデルを統合する新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2025-03-30T02:41:55Z) - Knowledge Transfer Across Modalities with Natural Language Supervision [8.493435472659646]
我々は,文章記述のみを用いて新しい概念を学習する方法を提示する。人間の知覚と同様に,異種間相互作用を活用して新しい概念を導入する。
知識伝達は, マルチモーダルモデルにおける新しい概念を, 極めて効率的な方法で導入できることを示す。
論文 参考訳(メタデータ) (2024-11-23T17:26:50Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。
ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。
我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文 参考訳(メタデータ) (2024-06-03T12:12:33Z) - CANDLE: Iterative Conceptualization and Instantiation Distillation from Large Language Models for Commonsense Reasoning [45.62134354858683]
CANDLEは、コモンセンス知識ベースに対する概念化とインスタンス化を反復的に行うフレームワークである。
CANDLEをATOMICに適用することにより、600万の概念化と三重項のインスタンス化を含む総合的な知識基盤を構築する。
論文 参考訳(メタデータ) (2024-01-14T13:24:30Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Towards a Universal Continuous Knowledge Base [49.95342223987143]
複数のニューラルネットワークからインポートされた知識を格納できる継続的知識基盤を構築する方法を提案する。
テキスト分類実験は有望な結果を示す。
我々は複数のモデルから知識ベースに知識をインポートし、そこから融合した知識を単一のモデルにエクスポートする。
論文 参考訳(メタデータ) (2020-12-25T12:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。