Fugu-MT 論文翻訳(概要): Where Should Knowledge Enter? A Layered Framework for Knowledge Infusion in Multimodal Iterative Generative Mo

論文の概要: Where Should Knowledge Enter? A Layered Framework for Knowledge Infusion in Multimodal Iterative Generative Mo

arxiv url: http://arxiv.org/abs/2606.06356v1
Date: Thu, 04 Jun 2026 16:24:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-05 22:39:44.953247
Title: Where Should Knowledge Enter? A Layered Framework for Knowledge Infusion in Multimodal Iterative Generative Mo
Title（参考訳）: 知識はどこから入るべきか? 多モーダル反復生成モッドにおける知識注入のための階層化フレームワーク
Authors: Renjith Prasad, Chathurangi Shyalika, Anushka Pawar, Amit Sheth,
Abstract要約: マルチモーダル生成モデルは、流動的な出力を生成するが、生成が構造化、ドメイン固有、あるいは安全クリティカルな知識を尊重する必要がある場合、信頼できないままである。反復生成モデルにおける知識注入は、本質的には干渉層問題であると主張する。
参考スコア（独自算出の注目度）: 0.9855443115851177
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal generative models produce fluent outputs but remain unreliable when generation must respect structured, domain-specific, or safety-critical knowledge. Existing methods incorporate knowledge through mechanisms such as prompt augmentation, guidance, latent editing, or fine-tuning, yet they are typically categorized by technique rather than by the component of the generative process they modify. We argue that knowledge infusion in iterative generative models is fundamentally anintervention-layer problem. Since thegenerative process unfolds as a trajectory of internal states, knowledge can act on four structurally distinct components of this process: the input/output boundary, the transition function, the intermediate state, and the model parameters. This maps to four intervention layers: surface, trajectory, latent, and parametric infusion. We instantiate the framework in diffusion models, map representative methods to all four layers, and derive design principles for multi-layer composition. In a controlled safety-alignment experiment using a multimodal knowledge graph with two diffusion backbones, we implement three of the four layers cumulatively, surface (input-side and output-side) and trajectory--latent (mid-generation). We show empirically that each additional layer addresses failure classes that prior layers cannot reach, reducing knowledge-violating outputs by 70.97% compared to vanilla generation and empirically confirming the framework's complementarity prediction.
Abstract（参考訳）: マルチモーダル生成モデルは、流動的な出力を生成するが、生成が構造化、ドメイン固有、あるいは安全クリティカルな知識を尊重する必要がある場合、信頼できないままである。既存の手法は、即興増強、ガイダンス、潜伏編集、微調整などのメカニズムを通じて知識を取り入れているが、それらは修正する生成過程の構成要素によってではなく、技術によって分類される。反復生成モデルにおける知識注入は、本質的には干渉層問題であると主張する。生成過程は内部状態の軌跡として展開するため、知識は入力/出力境界、遷移関数、中間状態、モデルパラメータの4つの構造的に異なる構成要素に作用する。これは、表面、軌道、潜伏、パラメトリック注入の4つの干渉層にマップされる。拡散モデルでフレームワークをインスタンス化し、4層すべてに代表法をマッピングし、多層合成の設計原理を導出する。 2つの拡散バックボーンを持つマルチモーダル知識グラフを用いた制御された安全アライメント実験において,4層のうち3層を累積的に,表面(インプット側と出力側)と軌跡(中間世代)で実装した。我々は,各追加レイヤが先行レイヤが到達できない障害クラスに対処できることを実証的に示し,バニラ生成と比較して知識侵害出力を70.97%削減し,フレームワークの相補性予測を実証的に確認する。

関連論文リスト

Localizing Knowledge in Diffusion Transformers [44.27817967554535]
本研究では,Diffusion Transformerブロック内に特定の種類の知識がエンコードされている場所をローカライズするモデルおよび知識に依存しない手法を提案する。同定されたブロックは、生成した出力における知識表現と因果関係があることが示される。本研究は、DiTの内部構造に関する新たな知見を提供し、より解釈可能で、効率的で、制御可能なモデル編集のための実践的な経路を導入する。
論文参考訳（メタデータ） (2025-05-24T19:02:20Z)
DDAE++: Enhancing Diffusion Models Towards Unified Generative and Discriminative Learning [53.27049077100897]
生成前訓練は差別的な表現をもたらし、統一された視覚生成と理解への道を開くことが示されている。この研究は自己条件付けを導入し、ネットワークに固有のリッチなセマンティクスを内部的に活用し、独自のデコード層をガイドする。提案手法は、FIDの生成と認識の精度を1%の計算オーバーヘッドで向上させ、多様な拡散アーキテクチャで一般化する。
論文参考訳（メタデータ） (2025-05-16T08:47:16Z)
MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities [72.05167902805405]
異種モデルのパラメータ空間のギャップを埋めることを学ぶMergeNetを提案する。 MergeNetの中核となるメカニズムはパラメータアダプタにあり、ソースモデルの低ランクパラメータをクエリすることで動作する。 MergeNetは両方のモデルと共に学習され、我々のフレームワークは、現在のステージに関する知識を動的に転送し、適応することができます。
論文参考訳（メタデータ） (2024-04-20T08:34:39Z)
Knowledge-Infused Self Attention Transformers [11.008412414253662]
トランスフォーマーベースの言語モデルは、様々な自然言語処理タスクにおいて驚くべき成功を収めた。本稿では,トランスモデルの異なるコンポーネントに知識を注入するための体系的手法を提案する。
論文参考訳（メタデータ） (2023-06-23T13:55:01Z)
DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery [20.787180028571694]
DiffusionSegは、2段階戦略を含む合成探索フレームワークである。我々は,豊富な画像を合成し,第1段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。第2のエクスプロイト段階では、構造的ギャップを埋めるために、インバージョン技術を用いて、与えられた画像を拡散特徴にマッピングする。
論文参考訳（メタデータ） (2023-03-17T07:47:55Z)
Semantically-informed Hierarchical Event Modeling [14.00844847268286]
本稿では,2つの階層的な半教師付きイベントモデリングフレームワークを提案する。提案手法は,各層が前の層を圧縮・抽象化する,構造化潜在変数の複数の層から構成される。我々は,従来の最先端アプローチを最大8.5%向上させることができることを実証した。
論文参考訳（メタデータ） (2022-12-20T18:51:23Z)
InDistill: Information flow-preserving knowledge distillation for model compression [20.88709060450944]
本稿では,知識蒸留(KD)の有効性のウォームアップ段階として機能するInDistillを紹介する。 InDistillは、重厚な教師から軽量な学生に重要な情報の流れの経路を移すことに重点を置いている。提案手法は, CIFAR-10, CIFAR-100, ImageNetデータセット上で, 教師/学生の多様なアーキテクチャを用いて広範に評価されている。
論文参考訳（メタデータ） (2022-05-20T07:40:09Z)
Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文参考訳（メタデータ） (2021-07-07T11:43:59Z)
There and Back Again: Revisiting Backpropagation Saliency Methods [87.40330595283969]
正当性法は,各入力サンプルの重要度マップを作成することによって,モデルの予測を説明する。このような手法の一般的なクラスは、信号のバックプロパゲートと結果の勾配の分析に基づいている。本稿では,そのような手法を統一可能な単一のフレームワークを提案する。
論文参考訳（メタデータ） (2020-04-06T17:58:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。