論文の概要: Embedding Provenance in Computer Vision Datasets with JSON-LD
- arxiv url: http://arxiv.org/abs/2603.27348v1
- Date: Sat, 28 Mar 2026 17:39:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.915776
- Title: Embedding Provenance in Computer Vision Datasets with JSON-LD
- Title(参考訳): JSON-LDによるコンピュータビジョンデータセットの埋め込み
- Authors: Lynn Vonderhaar, Timothy Elvira, Tyler Thomas Procko, Omar Ochoa,
- Abstract要約: Provenanceは、画像データセットなど、あるリソースの起源と派生に関する情報を提供する。
コンプライアンスを確保し、監査をサポートし、再利用性を向上させることで、データのメンテナンスにも役立ちます。
本稿では,画像の鮮明さを管理可能で一貫性のあるフォーマットで構築する新しいスキーマを提案する。
- 参考スコア(独自算出の注目度): 1.1199585259018459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the ubiquity of computer vision in industry, the importance of image provenance is becoming more apparent. Provenance provides information about the origin and derivation of some resource, e.g., an image dataset, enabling users to trace data changes to better understand the expected behaviors of downstream models trained on such data. Provenance may also help with data maintenance by ensuring compliance, supporting audits and improving reusability. Typically, if provided, provenance is stored separately, e.g., within a text file, leading to a loss of descriptive information for key details like image capture settings, data preprocessing steps, and model architecture or iteration. Images often lack the information detailing the parameters of their creation or compilation. This paper proposes a novel schema designed to structure image provenance in a manageable and coherent format. The approach utilizes JavaScript Object Notation for Linked Data (JSON-LD), embedding this provenance directly within the image file. This offers two significant benefits: (1) it aligns image descriptions with a robust schema inspired by and linked to established standards, and (2) it ensures that provenance remains intrinsically tied to images, preventing loss of information and enhancing system qualities, e.g., maintainability and adaptability. This approach emphasizes maintaining the direct connection between vision resources and their provenance.
- Abstract(参考訳): 産業におけるコンピュータビジョンの普及に伴い、画像の出現の重要性が増している。
Provenanceは、画像データセットのような、あるリソースの起源と派生に関する情報を提供し、ユーザがデータ変更をトレースして、そのようなデータでトレーニングされた下流モデルの期待される振る舞いをよりよく理解できるようにする。
コンプライアンスを確保し、監査をサポートし、再利用性を向上させることで、データのメンテナンスにも役立ちます。
通常、提供された場合、例えばテキストファイル内にプロファイランスを別々に保存し、画像キャプチャ設定、データ前処理ステップ、モデルアーキテクチャやイテレーションといった重要な詳細に関する記述的な情報が失われる。
画像には、生成やコンパイルのパラメータの詳細情報がないことが多い。
本稿では,画像の鮮明さを管理可能で一貫性のあるフォーマットで構築する新しいスキーマを提案する。
このアプローチでは、JavaScript Object Notation for Linked Data(JSON-LD)を使用して、この証明をイメージファイルに直接埋め込む。
これは,(1)画像記述と,確立された標準にインスパイアされてリンクされた堅牢なスキーマの整合性,(2)画像に固有の結びつきを保ち,情報の喪失を防止し,システム品質の向上,例えば,保守性と適応性を向上する,という2つの大きなメリットを提供する。
このアプローチは、ビジョンリソースとその証明との直接的な接続を維持することを強調する。
関連論文リスト
- Leveraging Contrastive Learning for a Similarity-Guided Tampered Document Data Generation Pipeline [6.066442015301665]
高品質な文書画像を生成するための新しい手法を提案する。
まず、テキスト作物の比較のための補助的ネットワークをトレーニングし、対照的な学習と、正のペアと対応する負のペアを定義するための新しい戦略を活用する。
慎重に設計した生成パイプラインを用いて、多種多様な高品質な文書画像を生成することができるフレームワークを導入する。
論文 参考訳(メタデータ) (2026-02-19T12:39:38Z) - Picking the Cream of the Crop: Visual-Centric Data Selection with Collaborative Agents [62.616106562146776]
textbfVisual-Centric textbfSelection approach by textbfAgents Collaboration (ViSA)を提案する。
提案手法は,(1)視覚エージェントの協調による画像情報定量化手法により,リッチな視覚情報を持つ画像を選択する方法,(2)高品質な画像に関連する高品質な画像を選択する視覚中心の指示品質評価手法からなる。
論文 参考訳(メタデータ) (2025-02-27T09:37:30Z) - See then Tell: Enhancing Key Information Extraction with Vision Grounding [32.445618057103324]
STNet(See then Tell Net)は、視覚基盤の正確な答えを提供するために設計された、新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
提案手法は,KIE性能の大幅な向上を実証し,公開データセットの最先端化を実現している。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - EZIGen: Enhancing zero-shot personalized image generation with precise subject encoding and decoupled guidance [20.430259028981094]
ゼロショットパーソナライズされた画像生成モデルは、与えられたテキストプロンプトと被写体画像の両方に一致した画像を作成することを目的としている。
既存の手法では、細かな被写体の詳細を捉えるのに苦労することが多く、一方のガイダンスを他方よりも優先することが多い。
EZIGenは、固定トレーニング済みのDiffusion UNet自体を主題エンコーダとして活用する。
論文 参考訳(メタデータ) (2024-09-12T14:44:45Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - DECDM: Document Enhancement using Cycle-Consistent Diffusion Models [3.3813766129849845]
近年の拡散モデルに触発された文書レベルの画像変換手法であるDECDMを提案する。
本手法は,ソース(ノイズ入力)とターゲット(クリーン出力)モデルを独立にトレーニングすることで,ペアトレーニングの限界を克服する。
また、翻訳中の文字・グリフ保存を改善するための単純なデータ拡張戦略も導入する。
論文 参考訳(メタデータ) (2023-11-16T07:16:02Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - ConfounderGAN: Protecting Image Data Privacy with Causal Confounder [85.6757153033139]
本稿では,GAN(Generative Adversarial Network)のConfounderGANを提案する。
実験は、3つの自然なオブジェクトデータセットと3つの医療データセットからなる6つの画像分類データセットで実施される。
論文 参考訳(メタデータ) (2022-12-04T08:49:14Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - RectiNet-v2: A stacked network architecture for document image dewarping [16.249023269158734]
本稿では,入力として使用する歪文書から歪みのない文書画像を生成することができるエンドツーエンドCNNアーキテクチャを提案する。
我々は、このモデルを、十分な自然データ不足を補うために、合成的にシミュレートされた歪んだ文書画像に基づいて訓練する。
我々は,この領域のベンチマークであるDocUNetデータセットを用いて本手法の評価を行い,最先端の手法に匹敵する結果を得た。
論文 参考訳(メタデータ) (2021-02-01T19:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。