論文の概要: Training Data Attribution for Image Generation using Ontology-Aligned Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2512.02713v1
- Date: Tue, 02 Dec 2025 12:45:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.872299
- Title: Training Data Attribution for Image Generation using Ontology-Aligned Knowledge Graphs
- Title(参考訳): オントロジー対応知識グラフを用いた画像生成のための学習データ属性
- Authors: Theodoros Aivalis, Iraklis A. Klampanos, Antonis Troumpoukis, Joemon M. Jose,
- Abstract要約: 本稿では,知識グラフの自動構築を通じて生成出力を解釈するフレームワークを提案する。
本手法は, 画像から立体構造を抽出し, 領域固有のオントロジーと整合する。
生成された画像とトレーニング画像のKGを比較して、潜在的な影響をトレースし、著作権分析、データセットの透明性、解釈可能なAIを可能にします。
- 参考スコア(独自算出の注目度): 3.686386213696443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As generative models become powerful, concerns around transparency, accountability, and copyright violations have intensified. Understanding how specific training data contributes to a model's output is critical. We introduce a framework for interpreting generative outputs through the automatic construction of ontologyaligned knowledge graphs (KGs). While automatic KG construction from natural text has advanced, extracting structured and ontology-consistent representations from visual content remains challenging -- due to the richness and multi-object nature of images. Leveraging multimodal large language models (LLMs), our method extracts structured triples from images, aligned with a domain-specific ontology. By comparing the KGs of generated and training images, we can trace potential influences, enabling copyright analysis, dataset transparency, and interpretable AI. We validate our method through experiments on locally trained models via unlearning, and on large-scale models through a style-specific experiment. Our framework supports the development of AI systems that foster human collaboration, creativity and stimulate curiosity.
- Abstract(参考訳): 生成モデルが強力になるにつれ、透明性、説明責任、著作権侵害に関する懸念が高まっている。
特定のトレーニングデータがモデルのアウトプットにどのように貢献するかを理解することが重要です。
オントロジー整合知識グラフ(KG)の自動構築により生成出力を解釈するフレームワークを提案する。
自然テキストからの自動KG構築は進歩しているが、画像の豊かさと多目的性のために、視覚コンテンツから構造的およびオントロジーに一貫性のある表現を抽出することは依然として困難である。
マルチモーダル大言語モデル (LLM) を用いて, 画像から構造化三重項を抽出し, ドメイン固有のオントロジーと整合する。
生成された画像とトレーニング画像のKGを比較して、潜在的な影響をトレースし、著作権分析、データセットの透明性、解釈可能なAIを可能にします。
本研究では, 局所学習モデルを用いた実験や, 大規模モデルを用いた実験を, スタイル固有の実験により検証する。
我々のフレームワークは、人間のコラボレーション、創造性、好奇心を刺激するAIシステムの開発を支援する。
関連論文リスト
- Product of Experts for Visual Generation [60.91134809173301]
異種モデルから推論時知識合成を行うPoE(Product of Experts)フレームワークを提案する。
本フレームワークは画像と映像の合成作業において実用的な利点を示し,モノリシックな手法よりも制御性が高いことを示す。
論文 参考訳(メタデータ) (2025-06-10T15:21:14Z) - BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset [140.1967962502411]
本稿では,拡散変換器を用いて意味的にリッチなCLIP画像特徴を生成する手法を提案する。
画像理解のための統合モデルファーストトレーニングと画像生成のための逐次事前学習戦略は、実用的な利点をもたらす。
革新的なモデル設計、トレーニングレシピ、データセットに基づいて、最先端の統一マルチモーダルモデルのスイートであるBLIP3-oを開発します。
論文 参考訳(メタデータ) (2025-05-14T17:11:07Z) - Deep ContourFlow: Advancing Active Contours with Deep Learning [3.9948520633731026]
画像分割のための教師なしとワンショットの両方のアプローチのためのフレームワークを提案する。
広範なラベル付きトレーニングデータを必要とせずに、複雑なオブジェクト境界をキャプチャできる。
これは特に、注釈の不足に直面している分野である歴史学において必要である。
論文 参考訳(メタデータ) (2024-07-15T13:12:34Z) - ASAP: Interpretable Analysis and Summarization of AI-generated Image Patterns at Scale [20.12991230544801]
生成画像モデルは、現実的な画像を生成するための有望な技術として登場してきた。
ユーザーがAI生成画像のパターンを効果的に識別し理解できるようにするための需要が高まっている。
我々はAI生成画像の異なるパターンを自動的に抽出する対話型可視化システムASAPを開発した。
論文 参考訳(メタデータ) (2024-04-03T18:20:41Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。