Fugu-MT 論文翻訳(概要): Are a Thousand Words Better Than a Single Picture? Beyond Images -- A Framework for Multi-Modal Knowledge Graph Dataset Enrichment

論文の概要: Are a Thousand Words Better Than a Single Picture? Beyond Images -- A Framework for Multi-Modal Knowledge Graph Dataset Enrichment

arxiv url: http://arxiv.org/abs/2603.16974v1
Date: Tue, 17 Mar 2026 12:41:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-19 18:32:57.316522
Title: Are a Thousand Words Better Than a Single Picture? Beyond Images -- A Framework for Multi-Modal Knowledge Graph Dataset Enrichment
Title（参考訳）: 1枚の写真より数千語の方が良いか? 画像を超えて -- マルチモーダルな知識グラフデータセット強化のためのフレームワーク
Authors: Pengyu Zhang, Klim Zaporojets, Jie Liu, Jia-Hong Huang, Paul Groth,
Abstract要約: Beyond Imagesは、人間の監査をオプションで行う自動データ中心エンリッチメントパイプラインである。本パイプラインは,(1)エンティティ関連画像の大規模検索,(2)すべての視覚入力のテキスト記述への変換,(3)複数ソース記述の融合の3段階からなる。画像のカバレッジを拡大し、曖昧な視覚をテキストに変換することは、より強力なマルチモーダル知識グラフへの実践的な道であることを示す。
参考スコア（独自算出の注目度）: 20.612056350335227
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-Modal Knowledge Graphs (MMKGs) benefit from visual information, yet large-scale image collection is hard to curate and often excludes ambiguous but relevant visuals (e.g., logos, symbols, abstract scenes). We present Beyond Images, an automatic data-centric enrichment pipeline with optional human auditing. This pipeline operates in three stages: (1) large-scale retrieval of additional entity-related images, (2) conversion of all visual inputs into textual descriptions to ensure that ambiguous images contribute usable semantics rather than noise, and (3) fusion of multi-source descriptions using a large language model (LLM) to generate concise, entity-aligned summaries. These summaries replace or augment the text modality in standard MMKG models without changing their architectures or loss functions. Across three public MMKG datasets and multiple baseline models, we observe consistent gains (up to 7% Hits@1 overall). Furthermore, on a challenging subset of entities with visually ambiguous logos and symbols, converting images into text yields large improvements (201.35% MRR and 333.33% Hits@1). Additionally, we release a lightweight Text-Image Consistency Check Interface for optional targeted audits, improving description quality and dataset reliability. Our results show that scaling image coverage and converting ambiguous visuals into text is a practical path to stronger MMKG completion. Code, datasets, and supplementary materials are available at https://github.com/pengyu-zhang/Beyond-Images.
Abstract（参考訳）: マルチモーダル知識グラフ(MMKG)は視覚情報から恩恵を受けるが、大規模な画像収集はキュレーションが困難であり、曖昧だが関連する視覚(ロゴ、シンボル、抽象的なシーンなど)を除外することが多い。 Beyond Imagesは、人間の監査をオプションで行う自動データ中心エンリッチメントパイプラインである。本パイプラインは,(1)エンティティ関連画像の大規模検索,(2)不明瞭な画像がノイズよりも有用セマンティクスに寄与することを保証するためのテキスト記述への全視覚入力の変換,(3)大規模言語モデル(LLM)を用いた複数ソース記述の融合による簡潔でエンティティ対応の要約の生成,の3段階で動作する。これらの要約は、アーキテクチャや損失関数を変更することなく、標準MMKGモデルのテキストモダリティを置き換えたり、強化したりする。 3つの公開MMKGデータセットと複数のベースラインモデルにまたがって、一貫した利得(全体の7%まで)を観察します。さらに、視覚的に曖昧なロゴとシンボルを持つエンティティの挑戦的なサブセットでは、画像をテキストに変換することで大きな改善(201.35% MRRと33.33% Hits@1)がもたらされる。さらに、任意の対象監査のための軽量なText-Image Consistency Check Interfaceをリリースし、説明品質とデータセットの信頼性を改善した。以上の結果から,画像のカバレッジを拡大し,曖昧な視覚をテキストに変換することは,MMKGの完成度を高めるための実践的な方法であることが示唆された。コード、データセット、補足資料はhttps://github.com/pengyu-zhang/Beyond-Imagesで入手できる。

関連論文リスト

Fine-Grained Zero-Shot Composed Image Retrieval with Complementary Visual-Semantic Integration [64.12127577975696]
ゼロショット合成画像検索(ZS-CIR)は急速に発展し,実用化が進んでいる分野である。既存のZS-CIR法は、細粒度の変化を捉え、視覚情報と意味情報を効果的に統合するのに苦労することが多い。補足型ビジュアルセマンティック統合を用いたファイングラインドゼロショット合成画像検索手法を提案する。
論文参考訳（メタデータ） (2026-01-20T15:17:14Z)
Entity-Guided Multi-Task Learning for Infrared and Visible Image Fusion [14.3937321254743]
Infrared and visible image fusion (EGMT) のためのEntity-Guided Multi-Task Learning という新しい融合手法を提案する。大規模視覚言語モデルにより生成された画像キャプションからエンティティレベルのテキスト情報を抽出する原理的手法を提案する。並列マルチタスク学習アーキテクチャを構築し、画像融合とマルチラベル分類タスクを統合する。また、視覚的特徴とエンティティレベルのテキスト的特徴のきめ細かい相互作用を容易にするために、エンティティ誘導型クロスモーダルインタラクティブモジュールも開発されている。
論文参考訳（メタデータ） (2026-01-05T08:00:03Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文参考訳（メタデータ） (2024-10-02T16:55:01Z)
ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。 ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文参考訳（メタデータ） (2024-08-19T15:27:25Z)
MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions [64.89284104414865]
オープンエンド命令をサポートする自己教師付き画像検索モデルであるMagicLensを紹介する。 MagicLensは、重要な新しい洞察に基づいて構築されている。同じWebページで自然に起こるイメージペアは、幅広い暗黙の関係を含んでいる。 MagicLensは、さまざまな画像検索タスクの8つのベンチマークで、これまでの最高値に匹敵する結果を得る。
論文参考訳（メタデータ） (2024-03-28T17:59:20Z)
A Dual-way Enhanced Framework from Text Matching Point of View for Multimodal Entity Linking [17.847936914174543]
マルチモーダルエンティティリンク(MEL)は、ウィキペディアのような知識グラフ(KG)のエンティティに曖昧な言及を多モーダル情報にリンクすることを目的としている。我々は、各マルチモーダル情報(テキストと画像)をクエリとして扱うニューラルテキストマッチング問題として、マルチモーダルエンティティリンクを定式化する。本稿では,MELのための双方向拡張(DWE)フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-19T03:15:50Z)
NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文参考訳（メタデータ） (2022-07-26T17:34:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。